Est-ce la solution au problème de la valeur p?

En février 2016, l'American Statistical Association a publié une déclaration officielle sur la signification statistique et les valeurs p. Notre fil à ce sujet traite de ces questions en détail. Cependant, aucune autorité n’a été proposée pour offrir une alternative efficace universellement reconnue - jusqu’à présent. L'American Statistical Society (ASS) a publié sa réponse, les valeurs-p: et ensuite?

"La valeur p n'est pas bonne pour beaucoup."

Nous pensons que l'ASA n'est pas allé assez loin. Il est temps d'admettre que l'ère des valeurs prédictives est terminée. Les statisticiens les ont utilisées avec succès pour brouiller les étudiants de premier cycle, tromper les scientifiques et berner les rédacteurs en chef, mais le monde commence à voir au travers de cette ruse. Nous devons abandonner cette tentative des statisticiens du début du 20ème siècle de contrôler la prise de décision. Nous devons revenir à ce qui fonctionne réellement.

La proposition officielle d'ASS est la suivante:

Au lieu de valeurs-p, l’ASS préconise la procédure STOP (procédure SeaT-of-Pants). Cette méthode reconnue et éprouvée a été utilisée par les Grecs anciens, les hommes de la Renaissance et tous les scientifiques jusqu'à ce que Ronald Fisher arrive et ruine des choses. Le STOP est simple, direct, basé sur les données et faisant autorité. Pour le mener à bien, une figure d'autorité (un homme plus âgé, de préférence) examine les données et décide si elles sont d'accord avec son opinion. Quand il en décide ainsi, le résultat est «significatif». Autrement, ce n'est pas le cas et tout le monde est obligé d'oublier tout.

Des principes

La réponse aborde chacun des six principes de l'ASA.

Le STOP peut indiquer dans quelle mesure les données sont incompatibles avec un modèle statistique spécifié.

Nous aimons cette phrase parce que c’est une façon très élégante de dire que STOP répondra à toute question par oui ou par non. Contrairement aux valeurs p ou à d'autres procédures statistiques, cela ne laisse aucun doute. C'est la réponse parfaite à ceux qui disent: «Nous n'avons pas besoin d'hypothèse nulle puante! Qu'est-ce que le *?! @ Est-ce, en tout cas? Personne n'a jamais pu comprendre ce que c'était supposé être.
Le STOP ne mesure pas la probabilité qu'une hypothèse soit vraie: il décide en fait si c'est vrai ou non.

Tout le monde est confus par les probabilités. En supprimant les probabilités, le système STOP élimine le besoin d'années d'études de premier cycle et de cycles supérieurs. Désormais, toute personne (suffisamment âgée et de sexe masculin) peut effectuer une analyse statistique sans la peine et la torture d'écouter même un seul exposé statistique ou d'utiliser un logiciel obscur qui génère des résultats inintelligibles.
Les conclusions scientifiques et les décisions commerciales ou politiques peuvent être fondées sur le bon sens et sur de véritables personnalités.

Quoi qu'il en soit, les autorités ont toujours pris d'importantes décisions. Admettons-le simplement et coupons les intermédiaires. En utilisant STOP, les statisticiens seront libres de faire ce qui leur convient le mieux: utiliser des chiffres pour dissimuler la vérité et sanctifier les préférences de ceux qui sont au pouvoir.
Une inférence correcte exige un rapport complet et une transparence.

STOP est la procédure statistique la plus transparente et la plus évidente jamais inventée: vous regardez les données et vous décidez. Il élimine tous les tests z, tests t, tests chi-deux et procédures de soupe à l'alphabet (ANOVA! GLM! MLE!) Déroutants utilisés par les gens pour cacher le fait qu'ils n'ont aucune idée de la signification des données.
Le STOP mesure l’importance du résultat.

Cela va de soi: si une personne en position d'autorité utilise le STOP, le résultat doit être important.
En soi, le STOP fournit une bonne mesure des preuves concernant un modèle ou une hypothèse.

Nous ne voudrions pas contester une autorité, n'est-ce pas? Les chercheurs et les décideurs reconnaîtront que le STOP fournit toutes les informations dont ils ont besoin. Pour ces raisons, l’analyse de données peut se terminer par le STOP; il n'y a pas besoin d'approches alternatives, telles que les valeurs p, l'apprentissage automatique ou l'astrologie.

Autres approches

Certains statisticiens préfèrent les méthodes dites «bayésiennes», dans lesquelles un théorème obscur publié à titre posthume par un clerc du XVIIIe siècle est appliqué sans réfléchir pour résoudre tous les problèmes. Ses défenseurs les plus notés admettent librement que ces méthodes sont «subjectives». Si nous utilisons des méthodes subjectives, il est évident que plus le décideur est autoritaire et compétent, meilleur sera le résultat. Le STOP apparaît ainsi comme la limite logique de toutes les méthodes Bayes. Pourquoi faire l'effort de faire ces calculs horribles et de perdre autant de temps sur l'ordinateur, alors que vous pouvez simplement montrer les données au responsable et lui demander quelle est son opinion? Fin de l'histoire.

Une autre communauté s'est récemment constituée pour contester le sacerdoce des statisticiens. Ils s’appellent eux-mêmes «apprenants de la machine» et «spécialistes des données», mais ce ne sont en réalité que des pirates informatiques à la recherche d’un statut supérieur. C’est la position officielle de l’ASS que ces gars-là doivent former leur propre organisation professionnelle s’ils veulent que les gens les prennent au sérieux.

La question

Est-ce la réponse aux problèmes identifiés par l'ASA avec les valeurs p et le test d'hypothèses nulles? Peut-il vraiment unir les paradigmes bayésien et frequentiste (comme le prétend implicitement la réponse)?

hypothesis-testing statistical-significance p-value whuber
la source

"Donald Trump pour le juge suprême de STOP ASS: améliorez les statistiques!"

Alex R.

Clairement, STOP est une procédure sous-optimale. Je suis surpris que cela ait échappé à une organisation estimée d'érudits comme l'ASS. À savoir, pourquoi perdre du temps en regardant les données du tout ? Donnez simplement votre réponse oui / non. Cette méthodologie est déjà utilisée à bon escient. Les études de cas abondent, en particulier aux États-Unis pendant les années divisibles par 4.

Cardinal

Je pense que les entreprises pourraient également bénéficier énormément de l’adoption de ces méthodes, puisqu’elles n’auraient plus à supporter le coût élevé de l’embauche de personnel pour analyser leurs données.

Dsaxton

@henry Comme si la balise [1-avril] ne nous l'avait pas dit?

Glen_b

@ Henry Sérieusement? Pouvez-vous nous montrer une fausse organisation qui reçoit plus d'un quart de million de visites lorsque vous consultez son nom sur Google?

whuber

Réponses:

Je préconise une nouvelle approche de la prise de décision statistique dans le domaine de la statistique: RADD: R oll A D amn D ie. Il aborde également tous les points clés.

1) RADD peut indiquer dans quelle mesure les données sont compatibles avec un modèle statistique spécifié.

Si vous obtenez un nombre plus élevé, il est clair que les preuves sont plus favorables à votre modèle! Un avantage supplémentaire est que, si nous souhaitons encore plus de confiance, nous pouvons lancer un dé avec plus de côtés. Vous pouvez même trouver 100 dés face si vous cherchez assez!

2) RADD peut décider si une hypothèse est vraie ou non.

Il suffit de lancer un dé à deux faces, c’est-à-dire lancer une pièce de monnaie.

3) RADD peut être utilisé pour prendre des décisions commerciales ou stratégiques

Obtenez un groupe de décideurs politiques dans une pièce et demandez-leur de lancer les dés! Plus hautes victoires!

4) RADD est transparent.

Le résultat peut être enregistré et le dé lui-même peut être conservé pour des recherches ultérieures *

5) RADD mesure l'importance du résultat.

Évidemment, rouler plus haut signifie qu'un événement très important s'est produit.

6) RADD fournit une bonne mesure des preuves.

N'avons-nous pas dit que les rouleaux plus élevés sont meilleurs?

Alors non, STOP n'est pas la solution. La réponse est RADD.

Matthew Drury
la source

Pour ne pas oublier, il peut assurer un contrôle d'erreur de type I (à n'importe quel niveau donné, avec un dé suffisamment déporté), par exemple en ne rejetant qu'une hypothèse nulle lorsque l'une des 5 faces avec le plus grand nombre de dés dé 100 débloqués se présente un taux d'erreur de type I de 5%.

Björn

Vous avez oublié de mentionner les polyèdres platoniques et certains polyèdres non platoniques .

Alexis

Je dois dire que de mon expérience en STOP réalité commerciale est le critère de décision par défaut, préféré $p$ -values et autres méthodes fréquentistes ou bayésiennes. Du point de vue commercial, STOP fournit des réponses simples et définitives qui le rendent plus fiable que des méthodes "probabilistes" incertaines. De plus, dans la grande majorité des cas, il est plus simple à mettre en œuvre et plus facile de s’adapter à la réalité changeante que d’autres méthodes. Les décisions Oui / Non sont plus convaincantes pour les cadres moyens et supérieurs. Les "rapports STOP" sont dans la plupart des cas plus courts et plus faciles à lire que ceux basés sur des données. De plus, l’adoption de cette méthode permet à votre employeur de réduire les coûts liés aux licences Data Scientists et SAS. Je dirais que le seul problème avec STOP est qu’il est plus difficile de faire une présentation PowerPoint présentant les résultats de STOP, mais comme il s’agit d’un domaine en développement dynamique, de meilleures méthodes de visualisation pourront être proposées à l’avenir.

Tim
la source

Une fois que les diapositives PowerPoint avec la conclusion ont été préparées, il est trop tard pour les modifier. Il y a donc deux choix: adapter l'analyse à la conclusion ou ne plus en faire l'analyse.

Mark L. Stone le

@ MarkL.Stone Bien sûr! Personnellement, j'aime bien l'idée de créer des parcelles pour la présentation avant de voir les données. Cette idée est ancrée dans la pensée bayésienne et je les appelle les parcelles a priori :) Je pense que cette approche a été publiée pour la première fois ici: dilbert.com/strip/ 2008-05-08

Tim

Cet excellent complément au débat sur les valeurs p, intéressant mais également quelque peu périmé à mon avis, me rappelle un article unique publié il y a quelques années dans le numéro de Noël du British Medical Journal (BMJ), qui publie chaque Noël des recherches à la fois réelles et amusantes. des articles. En particulier, ces travaux d' Isaacs et Fitzgerald ont mis en évidence sept solutions de rechange essentielles à la médecine fondée sur des preuves (c'est-à-dire la pratique de la médecine sur la base de preuves cliniques et statistiques réelles):

Médecine basée sur Eminence
Médecine à base de véhémence
Médecine à base d'éloquence
Médecine basée sur la providence
Médecine basée sur la confiance
Médecine basée sur la nervosité
Médecine basée sur la confiance

Plus intéressant encore, vous devez consulter les colonnes mettant en évidence les appareils de mesure et les unités de mesure des éléments ci-dessus (par exemple, audiomètre et décibels pour la médecine à base de véhémence!).

Giuseppe Biondi-Zoccai
la source

+1 Merci pour cette magnifique contribution, parfaitement dans l’esprit de la question. (1) Juste pour clarifier: est-ce le débat sur la valeur-p que vous trouvez "périmé" ou juste cette question? (2) Sauriez-vous où trouver la référence (6), "J Exponential Salaires"? Je suis sûr qu'il aurait beaucoup de lecteurs avides s'il était mieux connu.

whuber

(1) Votre contribution est "certifiée fraîche" (pour citer rottentomatoes.com). Inversement, je trouve quelque peu dépassé cette insistance sur les limites des valeurs p. À une époque d’apprentissage automatique, de mégadonnées et de connaissances scientifiques médiocres du public, la position de l’ASA peut sembler un peu masochiste. (2) Je pense que vous trouverez cet article dans le même journal où ils ont publié l'essai randomisé recommandé dans cet autre article de Noël du BMJ: bmj.com/content/327/7429/1459 .

Joe_74

J'oublie toujours, est-ce la médecine basée sur la confiance qui utilise l'inférence basée sur Dunning-Kruger?

Alexis