Quel est un bon exemple convaincant dans lequel les valeurs-p sont utiles?

64

Ma question dans le titre est explicite, mais j'aimerais lui donner un contexte.

L’ASA a publié une déclaration plus tôt cette semaine « sur les valeurs p: contexte, processus et but », décrivant diverses idées fausses courantes sur la valeur p et appelant à la prudence en ne l’utilisant pas sans contexte et sans réflexion (ce qui pourrait être dit à peu près toute méthode statistique, vraiment).

En réponse à l'ASA, le professeur Matloff a écrit un article sur son blog intitulé: Après 150 ans, l'ASA dit non aux valeurs prédictives . Ensuite, le professeur Benjamini (et moi-même) avons rédigé un article de réponse intitulé Ce n’est pas la faute des valeurs prédictives - réflexions sur la récente déclaration de l’ASA . En réponse à cela, le professeur Matloff a demandé dans un post de suivi :

Ce que j'aimerais voir [...], c'est un bon exemple convaincant dans lequel les valeurs prédictives sont utiles. Ce doit vraiment être la ligne du bas.

Pour citer ses deux arguments majeurs contre l'utilité de la :p

  1. Avec des échantillons de grande taille, les tests de signification sautent sur des écarts minimes et sans importance par rapport à l'hypothèse nulle.

  2. Presque aucune hypothèse nulle n'est vraie dans le monde réel, il est donc absurde et bizarre de faire un test de signification.

Je suis très intéressé par ce que les autres membres de la communauté interrogés par crossvalidated pensent de cette question / de ces arguments, et de ce qui peut constituer une bonne réponse à cette question.

Tal Galili
la source
5
Remarquez deux autres discussions en rapport avec ce sujet: stats.stackexchange.com/questions/200500/… et stats.stackexchange.com/questions/200745/…
Tim
2
Merci Tim. Je soupçonne que ma question est suffisamment différente pour mériter son propre fil (d’autant plus qu’elle n’a pas reçu de réponse dans les deux questions que vous avez mentionnées). Malgré tout, les liens sont très intéressants!
Tal Galili
3
Il mérite et est intéressant (d'où mon +1), j'ai fourni les liens juste pour info :)
Tim
3
Je dois dire que je n'ai pas (encore) lu ce que Matloff a écrit sur le sujet, mais néanmoins, pour que votre question reste autonome, pouvez-vous peut-être résumer brièvement pourquoi il trouve un exemple standard d'utilisation de p-values ​​non " bon / convaincant "? Par exemple, quelqu'un veut étudier si une certaine manipulation expérimentale modifie le comportement des animaux dans une direction donnée; de sorte qu'un groupe expérimental et un groupe témoin sont mesurés et comparés. En tant que lecteur d'un tel article, je suis heureux de voir la valeur p (c'est-à-dire qu'elles me sont utiles), car si elle est grande, je n'ai pas besoin de faire attention. Cet exemple ne suffit pas?
amibe dit de réintégrer Monica
1
@ amoeba - il les énumère ici: matloff.wordpress.com/2016/03/07/… ----- En citant ses arguments: 1) avec des échantillons volumineux, des tests de signification sautent sur des écarts infimes et sans importance par rapport à l'hypothèse nulle. 2) Presque aucune hypothèse nulle n'est vraie dans le monde réel, il est donc absurde et bizarre de faire un test de signification. ----- J'ai mes propres opinions sur ces questions (que je voudrais formaliser plus tard), mais je suis sûr que d'autres auront des moyens perspicaces de répondre à cette question.
Tal Galili

Réponses:

44

Je vais considérer les deux points de Matloff:

  1. Avec des échantillons de grande taille, les tests de signification sautent sur des écarts minimes et sans importance par rapport à l'hypothèse nulle.

    La logique ici est que si quelqu'un signale un hautement significatif, , alors ce seul chiffre ne permet pas de dire si l'effet est important et important ou si minime (comme cela peut arriver avec le grand ). Je trouve cet argument étrange et je ne peux absolument pas y adhérer , car je n'ai jamais vu d'étude qui indiquerait une valeur sans rapporter [quelque équivalent à] la taille de l'effet. Les études que j'ai lues diraient par exemple (et montrent généralement sur une figure) que le groupe A avait telle ou telle moyenne, le groupe B avait telle ou telle moyenne et qu'ils étaient significativement différents avec telle ou telle . Je peux évidemment juger par moi-même si la différence entre A et B est grande ou petite.p=0.0001npp

    (Dans les commentaires, @RobinEkman m'a signalé plusieurs études très citées de Ziliak et McCloskey ( 1996 , 2004 ) qui ont observé que la majorité des études économiques déclaraient "la signification statistique" de certains effets sans prêter beaucoup d'attention à la taille et aux effets de l'effet. sa "signification pratique" (qui, selon Z & MS, peut souvent être minuscule). Il s'agit clairement d'une mauvaise pratique. Cependant, comme l'explique @MatteoS ci-dessous, les tailles d'effet (estimations de régression) sont toujours rapportées, mon argument est donc valable.)

  2. Presque aucune hypothèse nulle n'est vraie dans le monde réel, il est donc absurde et bizarre de faire un test de signification.

    Cette préoccupation est aussi souvent exprimée, mais là encore, je ne peux pas vraiment me connecter. Il est important de réaliser que les chercheurs n'augmentent pas leur ad infinitum . Dans la branche des neurosciences que je connais bien, les gens feront des expériences avec ou peut-être , disons des rats. S'il n'y a pas d'effet à voir, alors la conclusion est que l'effet n'est pas assez important pour être intéressant. Je ne connais personne irait sur l' élevage, la formation, l' enregistrement, et le sacrifice rats pour montrer qu'il y a un effet statistiquement significatif , mais minuscule. Et alors qu'il pourrait être vrai que presque pas d' effets réels sont exactement zéro, il estn n=20n=50n=5000 Il est certainement vrai que de nombreux effets réels sont suffisamment petits pour être détectés avec des échantillons de taille raisonnable que les chercheurs raisonnables utilisent réellement, en faisant preuve de discernement.

    (On craint avec raison que la taille des échantillons ne soit souvent pas assez grande et que de nombreuses études soient sous-alimentées. Par conséquent, les chercheurs de nombreux domaines devraient plutôt viser, par exemple, au lieu de Néanmoins, quelle que soit la taille de l'échantillon, , il limite la taille de l’effet que l’étude a le pouvoir de détecter.)n=100n=20

    De plus, je ne pense pas que toutes les hypothèses nulles soient vraies, du moins pas dans les études expérimentales randomisées (par opposition aux études observationnelles). Deux raisons:

    • Très souvent, la prédiction testée a une directionnalité. Le chercheur cherche à démontrer que certains effets sont positifs . Par convention, cela se fait généralement avec un test bilatéral supposant un point nul mais en fait, il s’agit plutôt d’un test unilatéral tentant de rejeter . (La réponse de @ CliffAB, +1, fait ressortir un point connexe.) Et cela peut certainement être vrai.δ>0H0:δ=0H0:δ<0

    • Même en parlant du point "nil" null , je ne vois pas pourquoi elles ne sont jamais vraies. Certaines choses ne sont simplement pas liées de manière causale à d'autres choses. Regardez les études de psychologie qui ont échoué au cours des dernières années: les gens ont l’avenir; les femmes s'habillent en rouge lors de l'ovulation; amorçage avec des mots liés à la vieillesse affectant la vitesse de marche; etc. Il se pourrait très bien qu'il n'y a aucun lien de cause à effet du tout et donc les vrais effets sont exactement zéro.H0:δ=0

Lui-même, Norm Matloff suggère d'utiliser des intervalles de confiance au lieu de valeurs car ils indiquent la taille de l'effet. Les intervalles de confiance sont bons, mais notez un inconvénient d'un intervalle de confiance par rapport à la valeur : l'intervalle de confiance est indiqué pour une valeur de couverture particulière, par exemple . Voir un intervalle de confiance de ne me dit pas quelle serait la largeur d'un intervalle de confiance de . Mais une seule valeur- peut être comparée à n'importe quel et différents lecteurs peuvent avoir différents alphas en tête.pp95%95%99%pα

En d'autres termes, je pense que pour quelqu'un qui aime utiliser les intervalles de confiance, une valeur- est une statistique supplémentaire utile et significative à signaler.p


Je voudrais faire une longue citation sur l'utilité pratique des valeurs de mon blogueur préféré, Scott Alexander; il n’est pas un statisticien (il est un psychiatre) mais a beaucoup d’expérience dans la lecture de littérature psychologique / médicale et dans l’examen des statistiques. La citation est tirée de son billet de blog sur l’étude sur le chocolat factice que je recommande vivement. L'accent est à moi.p

[...] Mais supposons que nous ne soyons pas autorisés à faire des valeurs. Tout ce que je fais, c'est vous dire "Oui, il y avait une étude avec quinze personnes qui ont trouvé que le chocolat aidait à résister à l'insuline" et vous riez au nez. La taille de l'effet est censée aider à cela. Mais supposons que je vous dise "Il y avait une étude avec quinze personnes qui a trouvé que le chocolat aidait avec la résistance à l'insuline. La taille de l'effet était de ." Je n'ai aucune intuition pour savoir si cela est compatible avec le bruit aléatoire. Le faites vous? D'accord, alors ils disent que nous sommes censés signaler les intervalles de confiance. La taille de l'effet était de , avec un intervalle de confiance de de0,6 0,6 95 % [ 0,2 , 1,0 ] p 95 % p 0,05p0.60.695%[0.2,1.0]. D'accord. Donc, je vérifie la limite inférieure de l'intervalle de confiance, je vois qu'il est différent de zéro. Mais maintenant, je ne transcende pas la valeur . J'utilise simplement la valeur p en faisant moi-même une sorte de calcul kludgy: «l' intervalle de confiance à n'inclut pas zéro» est identique à «la valeur est inférieure à ».p95%p0.05

(Imaginez que, même si je sais que l’ intervalle de confiance de ne comprend pas zéro, je commence à me demander si l’ intervalle de confiance de fait. Si seulement une statistique pouvait me donner cette information!)99 %95%99%

Mais se débarrasser des valeurs- n'empêcherait-il pas le « -hacking»? Peut-être, mais cela céderait juste la place à “d-piratage”. Vous ne pensez pas pouvoir tester 20 paramètres métaboliques différents et ne déclarer que celui dont l'effet est le plus important? La seule différence serait que p-hacking est complètement transparent - si vous faites vingt tests et que vous signalez un de , je sais que vous êtes un idiot - mais d-hacking serait impénétrable. Si vous faites vingt tests et signalez que l'un d'entre eux a eu un , est-ce impressionnant? [...]pp 0,05 d = 0,6pp0.05d=0.6

Mais passer de la valeur à la taille de l’effet n’empêcherait- il pas les utilisateurs de s’attarder sur des effets minimes qui sont néanmoins statistiquement significatifs? Oui, mais nous voulons parfois faire grand cas des petits effets qui sont néanmoins statistiquement significatifs! Supposons que Coca-Cola teste un nouvel additif au produit et constate, dans le cadre d'études épidémiologiques de grande envergure, qu'il est à l'origine d'un décès supplémentaire pour 100 000 personnes par an. C'est un effet d'environ zéro, mais il pourrait toujours être statistiquement significatif. Et comme environ un milliard de personnes dans le monde boivent du Coca-Cola chaque année, cela fait dix mille morts. Si Coca-Cola disait «Non, taille d’effet trop petite, il ne faut pas y penser», ils tueraient près de deux milli-Hitler.p


Pour une discussion plus approfondie des différentes alternatives aux valeurs (y compris celles bayésiennes), voir ma réponse dans ASA traite des limitations des valeurs - quelles sont les alternatives?ppp

l'amibe dit de réintégrer Monica
la source
1
Votre réponse à la deuxième argument passe à côté de l'essentiel, à mon avis. Personne ne suggère que les vrais chercheurs augmentent la taille de leurs échantillons à l'infini. Le point (à mon avis) est que toute hypothèse nulle de la forme "effet = 0" à laquelle un chercheur serait intéressé par le test va être fausse, et il est peu utile de faire un test d'hypothèse si l'hypothèse nulle est déjà connu pour être faux. Cela suppose évidemment que ce qui nous intéresse vraiment, ce sont les paramètres de population pertinents, plutôt que les caractéristiques de l'échantillon.
mark999
1
Mais j'admets que "toute hypothèse nulle ... sera fausse" n'est qu'une hypothèse.
mark999
1
Je dois admettre que mon raisonnement était plutôt informel et que je n’ai jamais essayé de le formaliser. Peut-être pour que cet argument fonctionne, je ne devrais pas dire qu'il existe une frontière claire entre les tailles d'effet intéressantes et inintéressantes. Il s’agit plutôt d’un continuum avec un intérêt intéressant qui s’éloigne de plus en plus de zéro, et la taille "raisonnable" de l’échantillon ne devrait donner qu’une faible puissance aux effets très inintéressants et une puissance importante aux très intéressants, mais il n’existe pas de seuil. Je me demande si on peut formaliser avec précision le long des lignes Neyman-Pearson.
amibe dit de réintégrer Monica
6
Peut-être que vous "n'avez jamais vu une étude rapportant une valeur de sans rendre compte de la taille d'effet", mais Ziliak et McCloskey ont découvert quelque 300 articles de ce type publiés dans un seul journal, The American Economic Review, en seulement deux décennies. . Ces documents représentaient plus de 70% de tous les documents examinés. p
Robin Ekman
3
@amoeba: la source de la revendication de 70% peut être la formulation ambiguë de l'abrégé de 2006: «des 182 articles publiés dans les années 1980 dans la [RÉA] dans leur intégralité, 70% ne faisaient pas la distinction entre signification statistique et signification statistique». Comme ils l'expliquent dans les deux articles, ils entendent souvent commenter ce dernier et que la magnitude du coefficient de régression par rapport à la variable dépendante ("signification économique" dans leur jargon) n'est pas analysée de manière aussi approfondie. . Mais c'est toujours rapporté. Je vous suggère d'éditer votre mise à jour dans la réponse pour refléter cela :-)
MatteoS
29

Je m'offusque des deux idées suivantes:

  1. Avec des échantillons de grande taille, les tests de signification sautent sur des écarts minimes et sans importance par rapport à l'hypothèse nulle.

  2. Presque aucune hypothèse nulle n'est vraie dans le monde réel, il est donc absurde et bizarre de faire un test de signification.

C’est un tel débat entre les hommes et les femmes sur les valeurs p. Le problème fondamental qui a motivé le développement des statistiques provient du fait de voir une tendance et de vouloir savoir si ce que nous voyons est par hasard ou s'il est représentatif d'une tendance systématique.

Dans cet esprit, il est vrai que les statisticiens ne croient généralement pas qu’une hypothèse nulle est vraie (c’est-à-dire , où est la différence moyenne entre certaines mesures entre deux groupes). Cependant, avec les tests bilatéraux, nous ne savons pas quelle hypothèse alternative est vraie! Dans un test bilatéral, nous pouvons vouloir dire que nous sommes sûrs à 100% que avant de voir les données. Mais nous ne savons pas si ou . Donc, si nous courons notre expérience et concluons que , nous avons rejeté (comme dirait Matloff; conclusion inutile) mais, ce qui est plus important, nous avons également rejetéμ d μ d0 μ d > 0 μ d < 0 μ d > 0 μ d = 0 μ d < 0Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0 (je dis; conclusion utile). Comme @amoeba l'a fait remarquer, cela s'applique également aux tests unilatéraux susceptibles de l'être, par exemple pour vérifier si un médicament a un effet positif.

C'est vrai que cela ne vous dit pas l'ampleur de l'effet. Mais cela vous indique la direction de l'effet. Alors ne mettons pas la charrue avant les bœufs; avant de commencer à tirer des conclusions sur l’ampleur de l’effet, je veux être certain que la direction de l’effet est correcte!

De même, l'argument selon lequel "les valeurs p rebondissent sur des effets minimes et sans importance" me semble tout à fait imparfait. Si vous pensez à une p-valeur en tant que mesure de la quantité des données prend en charge la direction de votre conclusion, alors bien sûr que vous voulez pour ramasser les petits effets lorsque la taille de l' échantillon est assez grand. Dire que cela signifie qu'elles ne sont pas utiles m'est très étrange: ces domaines de recherche qui ont souffert des valeurs p sont-ils les mêmes que ceux qui ont tellement de données qu'ils n'ont pas besoin d'évaluer la fiabilité de leurs estimations? De même, si vos problèmes sont vraiment que les valeurs p "sautent sur des tailles d’effet minuscules", alors vous pouvez simplement tester les hypothèses etH 2 : μ d < - 1H1:μd>1H2:μd<1(en supposant que vous pensez que 1 est la taille minimale de l’effet important). Cela se fait souvent lors d'essais cliniques.

Pour illustrer davantage ceci, supposons que nous examinions simplement les intervalles de confiance et les valeurs p ignorées. Quelle est la première chose à vérifier dans l’intervalle de confiance? Si l'effet était strictement positif (ou négatif) avant de prendre les résultats trop au sérieux. En tant que tel, même sans les valeurs p, nous effectuerions des tests d'hypothèses de manière informelle.

Enfin, en ce qui concerne la demande de OP / Matloff, "Donnez un argument convaincant selon lequel les valeurs p sont nettement meilleures", je pense que la question est un peu délicate. Je dis cela parce que, selon votre point de vue, cela se répond automatiquement ("donnez-moi un exemple concret où il est préférable de tester une hypothèse que de ne pas les tester"). Cependant, un cas particulier que je pense presque indéniable est celui des données RNAseq. Dans ce cas, nous examinons généralement le niveau d'expression de l'ARN dans deux groupes différents (c.-à-d. Malades, contrôles) et essayons de trouver des gènes qui sont exprimés de manière différentielle dans les deux groupes. Dans ce cas, la taille de l'effet en soi n'a même pas vraiment de sens. En effet, les niveaux d'expression de différents gènes varient tellement que pour certains gènes, une expression 2x plus élevée ne signifie rien, tandis que sur d'autres gènes étroitement régulés, une multiplication par 1,2 plus élevée est fatale. Ainsi, l'ampleur réelle de la taille de l'effet est en réalité quelque peu inintéressante lors de la première comparaison des groupes. Mais toivraiment, vraiment envie de savoir si l'expression du gène change entre les groupes et la direction du changement! En outre, il est beaucoup plus difficile de résoudre les problèmes de comparaisons multiples (pour lesquelles vous pouvez en faire 20 000 en une seule analyse) avec des intervalles de confiance qu'avec des valeurs p.

Cliff AB
la source
2
Je ne suis pas d'accord pour dire que connaître le sens de l'effet est utile en soi . Si je crache sur le sol, je sais que cela va améliorer ou inhiber la croissance des plantes ( par exemple l'hypothèse nulle sans effet est faux). En quoi le fait de connaître la direction de cet effet sans aucune information sur sa magnitude est-il utile? Pourtant, c’est la seule chose que la valeur p de votre test bilatéral / deux tests unilatéraux (en quelque sorte) vous indique! (BTW, je pense que l'exemple de «cracher sur le sol» a été emprunté à un document sur les valeurs p que j'ai lu il y a des années, mais je ne me souviens plus lequel.)
Karl Ove Hufthammer Le
3
@KarlOveHufthammer: Chariot devant le cheval. Je ne devrais pas m'arrêter simplement parce que je connais la direction de l'effet. Mais je devrais m'inquiéter d'avoir la bonne direction avant de commencer à m'inquiéter de l'ampleur. Pensez-vous que la communauté scientifique aurait intérêt à adopter tout ce qui a des effets estimés importants sans vérifier les valeurs p?
Cliff AB
3
En outre, cette idée selon laquelle "les valeurs p ne vous fournissent pas d'informations utiles" ne constitue qu'une utilisation négligente des tests d'hypothèses. Vous pouvez facilement tester les hypothèses de et si vous pensez qu'une taille d'effet doit être d'une magnitude supérieure à 1 pour avoir un sens quelconque. (modifié la réponse pour refléter cela, car je crois que c'est un point important. Merci de l'avoir soulevé)H a : μ d < - 1Ha:μd>1Ha:μd<1
Cliff AB
2
Vous avez fait plusieurs très bons points dans les modifications. J'aime vraiment votre réponse maintenant!
amibe dit de réintégrer Monica
3
Alors que je travaillais sur ma réponse à stats.stackexchange.com/questions/200500, je suis tombé sur cette récente pré-impression de Wagenmakers et al., Où ils discutent essentiellement de votre point de vue sur la directionnalité: "les valeurs P unilatérales peuvent être interprétées comme une interprétation bayésienne comme un test approximatif de direction, c’est-à-dire un test permettant de déterminer si un effet latent est négatif ou positif. " C'est intéressant parce que Wagenmakers est un bayésien sans faille, il a beaucoup écrit contre les valeurs prédictives. Pourtant, je vois un accord conceptuel ici.
Amibe dit de réintégrer Monica
6

Pardonnez mon sarcasme, mais un bon exemple évident de l'utilité des valeurs p est la publication. Un expérimentateur m'a contacté pour produire une valeur p. Il avait introduit un transgène dans une seule plante pour améliorer la croissance. À partir de cette seule plante, il a produit plusieurs clones et a choisi le plus grand clone, un exemple dans lequel la population entière est énumérée. Sa question, le critique veut voir une valeur de p que ce clone est le plus grand. J'ai mentionné qu'il n'y avait aucun besoin de statistiques dans ce cas car il avait toute la population sous la main, mais en vain.

Plus sérieusement, à mon humble avis, d’un point de vue universitaire, je trouve cette discussion intéressante et stimulante, à l’instar des débats fréquentistes et bayésiens d’il ya quelques années. Il fait ressortir les points de vue divergents des meilleurs esprits dans ce domaine et met en lumière les nombreuses hypothèses / pièges associés à la méthodologie, qui sont généralement difficilement accessibles.

En pratique, je pense que plutôt que de discuter de la meilleure approche et de remplacer un critère imparfait par un autre, comme cela a déjà été suggéré ailleurs, il s’agit plutôt d’une révélation d’un problème systémique sous-jacent et de l’objectif principal. solutions. Par exemple, on pourrait présenter des situations dans lesquelles les valeurs p et CI se complètent et dans lesquelles l'une est plus fiable que l'autre. Dans le grand schéma des choses, je comprends que tous les outils inférentiels ont leurs propres faiblesses qui doivent être comprises dans toute application afin de ne pas entraver la progression vers le but ultime .. la compréhension plus profonde du système d’étude.

ashokragavendran
la source
6

Je vais vous donner le cas exemplaire de la façon dont les valeurs-p doivent être utilisées et rapportées. C'est un rapport très récent sur la recherche d'une particule mystérieuse sur le grand collisionneur de hadrons (LHC) au CERN .

Il y a quelques mois , il y avait beaucoup de bavardages excités dans les milieux de la physique de haute énergie sur une possibilité qu'une grande particule a été détectée sur LHC. Rappelez-vous que c'était après la découverte du boson de Higgs . Voici l'extrait de l'article "Recherche de résonances se décomposant en paires de photons dans 3.2 fb-1 de collisions pp à √s = 13 TeV avec le détecteur ATLAS" par The ATLAS Collaboration du 15 déc 2015 et mes commentaires sont les suivants:

entrez la description de l'image ici

Ce qu'ils disent ici, c'est que le nombre d'événements dépasse les prévisions du modèle standard . La figure ci-dessous présente les valeurs p des événements en excès en fonction de la masse d'une particule. Vous voyez comment la valeur p se situe autour de 750 GeV. Donc, ils disent qu'il est possible qu'une nouvelle particule soit détectée avec une masse égale à 750 Giga eV . Les valeurs p sur la figure sont calculées comme "locales". Les valeurs p globales sont beaucoup plus élevées. Ce n'est pas important pour notre conversation cependant.

Ce qui est important, c’est que les valeurs p ne sont pas encore "suffisamment basses" pour permettre aux physiciens de déclarer une découverte, mais "suffisamment basses" pour s’exciter. Ils prévoient donc de continuer à compter et espèrent que les valeurs prédictives vont diminuer davantage.

entrez la description de l'image ici

Zoom sur quelques mois avant août 2016, Chicago, une conférence sur HEP . Un nouveau rapport a été présenté "Recherche de production résonante de paires de photons de masse élevée en utilisant 12,9 fb-1 de collisions proton-proton à √ s = 13 TeV et interprétation combinée des recherches à 8 et 13 TeV" par The CMS Collaboration cette fois. Voici les extraits avec mes commentaires à nouveau:

entrez la description de l'image ici

Ainsi, les gars ont continué à collecter des événements, et maintenant cette vague d'événements excédentaires à 750 GeV est partie. La figure ci-dessous présente les valeurs p et vous pouvez voir comment celle-ci a augmenté par rapport au premier rapport. Ils concluent donc tristement qu'aucune particule n'est détectée à 750 GeV.

entrez la description de l'image ici

Je pense que c'est ainsi que les valeurs p sont censées être utilisées. Ils ont totalement un sens, et ils fonctionnent clairement. Je pense que la raison en est que les approches fréquentistes sont par nature naturelles en physique. Il n'y a rien de subjectif dans la diffusion de particules. Vous collectez un échantillon suffisamment grand et vous recevez un signal clair s’il est présent.

Si vous voulez vraiment savoir exactement comment les valeurs p sont calculées ici, lisez ce document : "Des formules asymptotiques pour les tests de vrais physique basés sur la vraisemblance" par Cowan et al.

Aksakal
la source
2
Tout le monde espérait que le pic de 750 GeV est réel et maintenant triste. Mais j’espérais en fait que cela deviendrait une fluctuation (et j’aurais parié que ce serait le cas) et je suis maintenant soulagé. Je pense que c'est cool que le modèle standard fonctionne si bien. Je ne comprends pas très bien le désir ardent d'aller au - delà du modèle standard (comme si tout le reste de la physique était résolu). Quoi qu'il en soit, +1, bon exemple.
Amibe dit de réintégrer Monica
2

Les autres explications sont bonnes, je voulais juste essayer de donner une réponse brève et directe à la question qui m'est venue à l'esprit.

Vérification du déséquilibre des covariables dans les expériences randomisées

Votre deuxième affirmation (sur des hypothèses nulles irréalistes) n’est pas vraie lorsque nous vérifions l’équilibre des covariables dans des expériences randomisées dans lesquelles nous savons que la randomisation a été effectuée correctement. Dans ce cas, nous savons que l'hypothèse nulle est vraie. Si nous obtenons une différence significative entre le groupe de traitement et le groupe de contrôle dans une covariable - après contrôle pour plusieurs comparaisons bien sûr - alors cela nous indique que nous avons eu un "mauvais tirage" dans la randomisation et que nous ne devrions peut-être pas nous fier à l'estimation causale. beaucoup. En effet, nous pourrions penser que les estimations de nos effets de traitement issues de cette randomisation «mauvaise tirage» particulière sont plus éloignées des véritables effets de traitement que les estimations obtenues avec un «bon tirage».

Je pense que c'est une utilisation parfaite des valeurs de p. Il utilise la définition de p-value: la probabilité d'obtenir une valeur aussi extrême que extrême compte tenu de l'hypothèse nulle. Si le résultat est hautement improbable, nous avons en fait obtenu un «mauvais tirage».

Les tables / statistiques d'équilibre sont également courantes lorsqu'on utilise des données d'observation pour tenter de tirer des déductions causales (par exemple, l'appariement, des expériences naturelles). Bien que, dans ces cas, les tableaux de bilan soient loin d’être suffisants pour justifier l’apposition d’un label "causal" sur les estimations.


la source
Je ne suis pas d'accord pour dire qu'il s'agit d'une utilisation parfaite (voire bonne) des valeurs p. Comment définissez-vous un "mauvais tirage"?
mark999
2
@ Mark, d'accord. Je pense pouvoir répondre à votre dernière question en l'absence de Matt: bien sûr, dans l'échantillon. Imaginez une expérience randomisée avec 50 personnes. Imaginez qu'il se trouve que les 25 personnes du groupe A se sont avérées être des hommes et que les 25 personnes du groupe B se sont avérées être des femmes. Il est assez évident que cela puisse jeter un doute sérieux sur les conclusions de l’étude; c'est un exemple de "mauvais tirage". Matt a suggéré de tester les différences de genre (covariable) entre A et B. Je ne vois pas comment la réponse de Matt peut être interprétée différemment. Il n'y a sans doute aucune population ici.
Amibe dit de réintégrer Monica
1
@ mark999 Mais un test de différence entre 12/25 et 13/25 donnera évidemment une p-valeur élevée non significative, aussi je ne suis pas sûr de savoir quel est votre argument. Matt a suggéré de faire un test et de considérer une faible valeur p comme un drapeau rouge. Pas de drapeau rouge dans votre exemple. Je pense que je vais m'arrêter ici et laisser Matt continuer le dialogue s'il le souhaite.
Amibe dit de réintégrer Monica
4
Voir 'erreur du test d'équilibre': gking.harvard.edu/files/matchse.pdf Vous décrivez un cas où la statistique de test elle-même peut être bonne (utilisée comme mesure de distance pour minimiser) mais pour laquelle une valeur p ne sens.
conjugateprior
2
Pour un examen plus récent de ceci en psycho- et neurolinguistique, il y a une nouvelle pré-impression arXiv . Lorsque vous délibérez de manipuler un équilibre, etc., vous n'êtes pas un échantillonnage aléatoire et même si vous l'étiez, les tests répondent à une question inférentielle différente sur l'équilibre de la population et non sur l'équilibre de l'échantillon.
Livius
2

Le contrôle des taux d'erreur est similaire au contrôle de la qualité en production. Un robot dans une ligne de production a une règle pour décider qu'une pièce est défectueuse, ce qui garantit de ne pas dépasser un taux spécifié de pièces défectueuses qui passent inaperçues. De même, une agence qui prend des décisions en matière d'homologation de médicaments sur la base de valeurs «honnêtes» permet de maintenir le taux de faux rejets à un niveau contrôlé, par définition via la construction fréquente et à long terme de tests. "Honnête" signifie ici l'absence de préjugés incontrôlés, de sélections cachées, etc.

Cependant, ni le robot, ni l'agence n'ont un intérêt personnel dans une drogue ou une pièce particulière qui passe par le convoyeur d'assemblage. En science, par contre, en tant qu’enquêteurs, nous nous soucions plus de l’hypothèse que nous étudions que de la proportion d’allégations fallacieuses dans notre journal favori auquel nous nous soumettons. Ni l'ampleur de la valeur de p ni les limites d'un intervalle de confiance (IC) ne se réfèrent directement à notre question sur la crédibilité de ce que nous rapportons. Lorsque nous construisons les bornes de CI, nous devrions dire que les deux chiffres ont pour seul sens que si d'autres scientifiques effectuent le même type de calcul de CI dans leurs études, la couverture de 95% ou toute autre couverture sera maintenue sur diverses études dans leur ensemble. .

Dans cette optique, je trouve paradoxal que les valeurs P soient "interdites" par les revues, étant donné qu’elles sont plus utiles aux rédacteurs de revues qu'aux chercheurs qui soumettent leurs articles, comme un moyen pratique de conserver la taux de résultats erronés rapportés par un journal à distance, à long terme. Les valeurs de p sont utiles pour filtrer ou, comme l’a écrit IJ Good, elles permettent de protéger l’arrière du statisticien, mais moins l’arrière du client.

PS Je suis un grand fan de l'idée de Benjamini et Hochberg de prendre l'attente inconditionnelle dans les études comportant plusieurs tests. Sous le "global" global, le FDR "fréquentiste" est toujours contrôlé - les études avec un ou plusieurs rejets apparaissent dans un journal à un rythme contrôlé, bien que, dans ce cas, toute étude dans laquelle certains rejets ont effectivement été réalisés a la proportion de faux rejets égal à un.

DZ
la source
1

Je suis d'accord avec Matt sur le fait que les valeurs de p sont utiles lorsque l'hypothèse nulle est vraie.

L’exemple le plus simple auquel je puisse penser est le test d’un générateur de nombres aléatoires. Si le générateur fonctionne correctement, vous pouvez utiliser n'importe quelle taille d'échantillon de réalisations appropriée. Lorsque vous testez l'ajustement sur de nombreux échantillons, les valeurs p doivent avoir une distribution uniforme. S'ils le font, c'est une bonne preuve d'une mise en œuvre correcte. S'ils ne le font pas, vous savez que vous avez commis une erreur quelque part.

D'autres situations similaires se produisent lorsque vous savez qu'une statistique ou une variable aléatoire devrait avoir une certaine distribution (encore une fois, le contexte le plus évident est la simulation). Si les valeurs p sont uniformes, vous avez trouvé un support pour une implémentation valide. Sinon, vous savez que vous avez un problème quelque part dans votre code.

Soakley
la source
1

Je peux penser à un exemple dans lequel les valeurs p sont utiles dans la physique expérimentale des hautes énergies. Voir Fig. 1 Ce graphique est tiré de cet article: Observation d'une nouvelle particule dans la recherche du boson de Higgs modèle standard avec le détecteur ATLAS au LHC

Sur cette figure, la valeur p est représentée par rapport à la masse d'une particule hypothétique. L'hypothèse nulle dénote la compatibilité de l'observation avec un fond continu. La grande déviation ( ) à m GeV été la première preuve et découverte d’une nouvelle particule. Cela a valu à François Englert et Peter Higgs le prix Nobel de physique en 2013.H1255σH125

entrez la description de l'image ici

Nicolas Gutierrez
la source
1
Vous devez fournir plus d'informations sur le graphique, avec son contexte et la manière dont il répond à la question d'origine. Ce n'est pas assez d'information.
Greenparker
@Greenparker, a essayé d'ajouter un peu de fond sur l'intrigue.
Nicolas Gutierrez
Vous n'avez pas expliqué ce qu'est un groupe bleu±1σ
Aksakal