Ma question dans le titre est explicite, mais j'aimerais lui donner un contexte.
L’ASA a publié une déclaration plus tôt cette semaine « sur les valeurs p: contexte, processus et but », décrivant diverses idées fausses courantes sur la valeur p et appelant à la prudence en ne l’utilisant pas sans contexte et sans réflexion (ce qui pourrait être dit à peu près toute méthode statistique, vraiment).
En réponse à l'ASA, le professeur Matloff a écrit un article sur son blog intitulé: Après 150 ans, l'ASA dit non aux valeurs prédictives . Ensuite, le professeur Benjamini (et moi-même) avons rédigé un article de réponse intitulé Ce n’est pas la faute des valeurs prédictives - réflexions sur la récente déclaration de l’ASA . En réponse à cela, le professeur Matloff a demandé dans un post de suivi :
Ce que j'aimerais voir [...], c'est un bon exemple convaincant dans lequel les valeurs prédictives sont utiles. Ce doit vraiment être la ligne du bas.
Pour citer ses deux arguments majeurs contre l'utilité de la :
Avec des échantillons de grande taille, les tests de signification sautent sur des écarts minimes et sans importance par rapport à l'hypothèse nulle.
Presque aucune hypothèse nulle n'est vraie dans le monde réel, il est donc absurde et bizarre de faire un test de signification.
Je suis très intéressé par ce que les autres membres de la communauté interrogés par crossvalidated pensent de cette question / de ces arguments, et de ce qui peut constituer une bonne réponse à cette question.
la source
Réponses:
Je vais considérer les deux points de Matloff:
La logique ici est que si quelqu'un signale un hautement significatif, , alors ce seul chiffre ne permet pas de dire si l'effet est important et important ou si minime (comme cela peut arriver avec le grand ). Je trouve cet argument étrange et je ne peux absolument pas y adhérer , car je n'ai jamais vu d'étude qui indiquerait une valeur sans rapporter [quelque équivalent à] la taille de l'effet. Les études que j'ai lues diraient par exemple (et montrent généralement sur une figure) que le groupe A avait telle ou telle moyenne, le groupe B avait telle ou telle moyenne et qu'ils étaient significativement différents avec telle ou telle . Je peux évidemment juger par moi-même si la différence entre A et B est grande ou petite.p=0.0001 n p p
(Dans les commentaires, @RobinEkman m'a signalé plusieurs études très citées de Ziliak et McCloskey ( 1996 , 2004 ) qui ont observé que la majorité des études économiques déclaraient "la signification statistique" de certains effets sans prêter beaucoup d'attention à la taille et aux effets de l'effet. sa "signification pratique" (qui, selon Z & MS, peut souvent être minuscule). Il s'agit clairement d'une mauvaise pratique. Cependant, comme l'explique @MatteoS ci-dessous, les tailles d'effet (estimations de régression) sont toujours rapportées, mon argument est donc valable.)
Cette préoccupation est aussi souvent exprimée, mais là encore, je ne peux pas vraiment me connecter. Il est important de réaliser que les chercheurs n'augmentent pas leur ad infinitum . Dans la branche des neurosciences que je connais bien, les gens feront des expériences avec ou peut-être , disons des rats. S'il n'y a pas d'effet à voir, alors la conclusion est que l'effet n'est pas assez important pour être intéressant. Je ne connais personne irait sur l' élevage, la formation, l' enregistrement, et le sacrifice rats pour montrer qu'il y a un effet statistiquement significatif , mais minuscule. Et alors qu'il pourrait être vrai que presque pas d' effets réels sont exactement zéro, il estn n=20 n=50 n=5000 Il est certainement vrai que de nombreux effets réels sont suffisamment petits pour être détectés avec des échantillons de taille raisonnable que les chercheurs raisonnables utilisent réellement, en faisant preuve de discernement.
(On craint avec raison que la taille des échantillons ne soit souvent pas assez grande et que de nombreuses études soient sous-alimentées. Par conséquent, les chercheurs de nombreux domaines devraient plutôt viser, par exemple, au lieu de Néanmoins, quelle que soit la taille de l'échantillon, , il limite la taille de l’effet que l’étude a le pouvoir de détecter.)n=100 n=20
De plus, je ne pense pas que toutes les hypothèses nulles soient vraies, du moins pas dans les études expérimentales randomisées (par opposition aux études observationnelles). Deux raisons:
Très souvent, la prédiction testée a une directionnalité. Le chercheur cherche à démontrer que certains effets sont positifs . Par convention, cela se fait généralement avec un test bilatéral supposant un point nul mais en fait, il s’agit plutôt d’un test unilatéral tentant de rejeter . (La réponse de @ CliffAB, +1, fait ressortir un point connexe.) Et cela peut certainement être vrai.δ>0 H0:δ=0 H0:δ<0
Même en parlant du point "nil" null , je ne vois pas pourquoi elles ne sont jamais vraies. Certaines choses ne sont simplement pas liées de manière causale à d'autres choses. Regardez les études de psychologie qui ont échoué au cours des dernières années: les gens ont l’avenir; les femmes s'habillent en rouge lors de l'ovulation; amorçage avec des mots liés à la vieillesse affectant la vitesse de marche; etc. Il se pourrait très bien qu'il n'y a aucun lien de cause à effet du tout et donc les vrais effets sont exactement zéro.H0:δ=0
Lui-même, Norm Matloff suggère d'utiliser des intervalles de confiance au lieu de valeurs car ils indiquent la taille de l'effet. Les intervalles de confiance sont bons, mais notez un inconvénient d'un intervalle de confiance par rapport à la valeur : l'intervalle de confiance est indiqué pour une valeur de couverture particulière, par exemple . Voir un intervalle de confiance de ne me dit pas quelle serait la largeur d'un intervalle de confiance de . Mais une seule valeur- peut être comparée à n'importe quel et différents lecteurs peuvent avoir différents alphas en tête.p p 95% 95% 99% p α
En d'autres termes, je pense que pour quelqu'un qui aime utiliser les intervalles de confiance, une valeur- est une statistique supplémentaire utile et significative à signaler.p
Je voudrais faire une longue citation sur l'utilité pratique des valeurs de mon blogueur préféré, Scott Alexander; il n’est pas un statisticien (il est un psychiatre) mais a beaucoup d’expérience dans la lecture de littérature psychologique / médicale et dans l’examen des statistiques. La citation est tirée de son billet de blog sur l’étude sur le chocolat factice que je recommande vivement. L'accent est à moi.p
Pour une discussion plus approfondie des différentes alternatives aux valeurs (y compris celles bayésiennes), voir ma réponse dans ASA traite des limitations des valeurs - quelles sont les alternatives?pp p
la source
Je m'offusque des deux idées suivantes:
C’est un tel débat entre les hommes et les femmes sur les valeurs p. Le problème fondamental qui a motivé le développement des statistiques provient du fait de voir une tendance et de vouloir savoir si ce que nous voyons est par hasard ou s'il est représentatif d'une tendance systématique.
Dans cet esprit, il est vrai que les statisticiens ne croient généralement pas qu’une hypothèse nulle est vraie (c’est-à-dire , où est la différence moyenne entre certaines mesures entre deux groupes). Cependant, avec les tests bilatéraux, nous ne savons pas quelle hypothèse alternative est vraie! Dans un test bilatéral, nous pouvons vouloir dire que nous sommes sûrs à 100% que avant de voir les données. Mais nous ne savons pas si ou . Donc, si nous courons notre expérience et concluons que , nous avons rejeté (comme dirait Matloff; conclusion inutile) mais, ce qui est plus important, nous avons également rejetéμ d μ d ≠ 0 μ d > 0 μ d < 0 μ d > 0 μ d = 0 μ d < 0Ho:μd=0 μd μd≠0 μd>0 μd<0 μd>0 μd=0 μd<0 (je dis; conclusion utile). Comme @amoeba l'a fait remarquer, cela s'applique également aux tests unilatéraux susceptibles de l'être, par exemple pour vérifier si un médicament a un effet positif.
C'est vrai que cela ne vous dit pas l'ampleur de l'effet. Mais cela vous indique la direction de l'effet. Alors ne mettons pas la charrue avant les bœufs; avant de commencer à tirer des conclusions sur l’ampleur de l’effet, je veux être certain que la direction de l’effet est correcte!
De même, l'argument selon lequel "les valeurs p rebondissent sur des effets minimes et sans importance" me semble tout à fait imparfait. Si vous pensez à une p-valeur en tant que mesure de la quantité des données prend en charge la direction de votre conclusion, alors bien sûr que vous voulez pour ramasser les petits effets lorsque la taille de l' échantillon est assez grand. Dire que cela signifie qu'elles ne sont pas utiles m'est très étrange: ces domaines de recherche qui ont souffert des valeurs p sont-ils les mêmes que ceux qui ont tellement de données qu'ils n'ont pas besoin d'évaluer la fiabilité de leurs estimations? De même, si vos problèmes sont vraiment que les valeurs p "sautent sur des tailles d’effet minuscules", alors vous pouvez simplement tester les hypothèses etH 2 : μ d < - 1H1:μd>1 H2:μd<−1 (en supposant que vous pensez que 1 est la taille minimale de l’effet important). Cela se fait souvent lors d'essais cliniques.
Pour illustrer davantage ceci, supposons que nous examinions simplement les intervalles de confiance et les valeurs p ignorées. Quelle est la première chose à vérifier dans l’intervalle de confiance? Si l'effet était strictement positif (ou négatif) avant de prendre les résultats trop au sérieux. En tant que tel, même sans les valeurs p, nous effectuerions des tests d'hypothèses de manière informelle.
Enfin, en ce qui concerne la demande de OP / Matloff, "Donnez un argument convaincant selon lequel les valeurs p sont nettement meilleures", je pense que la question est un peu délicate. Je dis cela parce que, selon votre point de vue, cela se répond automatiquement ("donnez-moi un exemple concret où il est préférable de tester une hypothèse que de ne pas les tester"). Cependant, un cas particulier que je pense presque indéniable est celui des données RNAseq. Dans ce cas, nous examinons généralement le niveau d'expression de l'ARN dans deux groupes différents (c.-à-d. Malades, contrôles) et essayons de trouver des gènes qui sont exprimés de manière différentielle dans les deux groupes. Dans ce cas, la taille de l'effet en soi n'a même pas vraiment de sens. En effet, les niveaux d'expression de différents gènes varient tellement que pour certains gènes, une expression 2x plus élevée ne signifie rien, tandis que sur d'autres gènes étroitement régulés, une multiplication par 1,2 plus élevée est fatale. Ainsi, l'ampleur réelle de la taille de l'effet est en réalité quelque peu inintéressante lors de la première comparaison des groupes. Mais toivraiment, vraiment envie de savoir si l'expression du gène change entre les groupes et la direction du changement! En outre, il est beaucoup plus difficile de résoudre les problèmes de comparaisons multiples (pour lesquelles vous pouvez en faire 20 000 en une seule analyse) avec des intervalles de confiance qu'avec des valeurs p.
la source
Pardonnez mon sarcasme, mais un bon exemple évident de l'utilité des valeurs p est la publication. Un expérimentateur m'a contacté pour produire une valeur p. Il avait introduit un transgène dans une seule plante pour améliorer la croissance. À partir de cette seule plante, il a produit plusieurs clones et a choisi le plus grand clone, un exemple dans lequel la population entière est énumérée. Sa question, le critique veut voir une valeur de p que ce clone est le plus grand. J'ai mentionné qu'il n'y avait aucun besoin de statistiques dans ce cas car il avait toute la population sous la main, mais en vain.
Plus sérieusement, à mon humble avis, d’un point de vue universitaire, je trouve cette discussion intéressante et stimulante, à l’instar des débats fréquentistes et bayésiens d’il ya quelques années. Il fait ressortir les points de vue divergents des meilleurs esprits dans ce domaine et met en lumière les nombreuses hypothèses / pièges associés à la méthodologie, qui sont généralement difficilement accessibles.
En pratique, je pense que plutôt que de discuter de la meilleure approche et de remplacer un critère imparfait par un autre, comme cela a déjà été suggéré ailleurs, il s’agit plutôt d’une révélation d’un problème systémique sous-jacent et de l’objectif principal. solutions. Par exemple, on pourrait présenter des situations dans lesquelles les valeurs p et CI se complètent et dans lesquelles l'une est plus fiable que l'autre. Dans le grand schéma des choses, je comprends que tous les outils inférentiels ont leurs propres faiblesses qui doivent être comprises dans toute application afin de ne pas entraver la progression vers le but ultime .. la compréhension plus profonde du système d’étude.
la source
Je vais vous donner le cas exemplaire de la façon dont les valeurs-p doivent être utilisées et rapportées. C'est un rapport très récent sur la recherche d'une particule mystérieuse sur le grand collisionneur de hadrons (LHC) au CERN .
Il y a quelques mois , il y avait beaucoup de bavardages excités dans les milieux de la physique de haute énergie sur une possibilité qu'une grande particule a été détectée sur LHC. Rappelez-vous que c'était après la découverte du boson de Higgs . Voici l'extrait de l'article "Recherche de résonances se décomposant en paires de photons dans 3.2 fb-1 de collisions pp à √s = 13 TeV avec le détecteur ATLAS" par The ATLAS Collaboration du 15 déc 2015 et mes commentaires sont les suivants:
Ce qu'ils disent ici, c'est que le nombre d'événements dépasse les prévisions du modèle standard . La figure ci-dessous présente les valeurs p des événements en excès en fonction de la masse d'une particule. Vous voyez comment la valeur p se situe autour de 750 GeV. Donc, ils disent qu'il est possible qu'une nouvelle particule soit détectée avec une masse égale à 750 Giga eV . Les valeurs p sur la figure sont calculées comme "locales". Les valeurs p globales sont beaucoup plus élevées. Ce n'est pas important pour notre conversation cependant.
Ce qui est important, c’est que les valeurs p ne sont pas encore "suffisamment basses" pour permettre aux physiciens de déclarer une découverte, mais "suffisamment basses" pour s’exciter. Ils prévoient donc de continuer à compter et espèrent que les valeurs prédictives vont diminuer davantage.
Zoom sur quelques mois avant août 2016, Chicago, une conférence sur HEP . Un nouveau rapport a été présenté "Recherche de production résonante de paires de photons de masse élevée en utilisant 12,9 fb-1 de collisions proton-proton à √ s = 13 TeV et interprétation combinée des recherches à 8 et 13 TeV" par The CMS Collaboration cette fois. Voici les extraits avec mes commentaires à nouveau:
Ainsi, les gars ont continué à collecter des événements, et maintenant cette vague d'événements excédentaires à 750 GeV est partie. La figure ci-dessous présente les valeurs p et vous pouvez voir comment celle-ci a augmenté par rapport au premier rapport. Ils concluent donc tristement qu'aucune particule n'est détectée à 750 GeV.
Je pense que c'est ainsi que les valeurs p sont censées être utilisées. Ils ont totalement un sens, et ils fonctionnent clairement. Je pense que la raison en est que les approches fréquentistes sont par nature naturelles en physique. Il n'y a rien de subjectif dans la diffusion de particules. Vous collectez un échantillon suffisamment grand et vous recevez un signal clair s’il est présent.
Si vous voulez vraiment savoir exactement comment les valeurs p sont calculées ici, lisez ce document : "Des formules asymptotiques pour les tests de vrais physique basés sur la vraisemblance" par Cowan et al.
la source
Les autres explications sont bonnes, je voulais juste essayer de donner une réponse brève et directe à la question qui m'est venue à l'esprit.
Vérification du déséquilibre des covariables dans les expériences randomisées
Votre deuxième affirmation (sur des hypothèses nulles irréalistes) n’est pas vraie lorsque nous vérifions l’équilibre des covariables dans des expériences randomisées dans lesquelles nous savons que la randomisation a été effectuée correctement. Dans ce cas, nous savons que l'hypothèse nulle est vraie. Si nous obtenons une différence significative entre le groupe de traitement et le groupe de contrôle dans une covariable - après contrôle pour plusieurs comparaisons bien sûr - alors cela nous indique que nous avons eu un "mauvais tirage" dans la randomisation et que nous ne devrions peut-être pas nous fier à l'estimation causale. beaucoup. En effet, nous pourrions penser que les estimations de nos effets de traitement issues de cette randomisation «mauvaise tirage» particulière sont plus éloignées des véritables effets de traitement que les estimations obtenues avec un «bon tirage».
Je pense que c'est une utilisation parfaite des valeurs de p. Il utilise la définition de p-value: la probabilité d'obtenir une valeur aussi extrême que extrême compte tenu de l'hypothèse nulle. Si le résultat est hautement improbable, nous avons en fait obtenu un «mauvais tirage».
Les tables / statistiques d'équilibre sont également courantes lorsqu'on utilise des données d'observation pour tenter de tirer des déductions causales (par exemple, l'appariement, des expériences naturelles). Bien que, dans ces cas, les tableaux de bilan soient loin d’être suffisants pour justifier l’apposition d’un label "causal" sur les estimations.
la source
Le contrôle des taux d'erreur est similaire au contrôle de la qualité en production. Un robot dans une ligne de production a une règle pour décider qu'une pièce est défectueuse, ce qui garantit de ne pas dépasser un taux spécifié de pièces défectueuses qui passent inaperçues. De même, une agence qui prend des décisions en matière d'homologation de médicaments sur la base de valeurs «honnêtes» permet de maintenir le taux de faux rejets à un niveau contrôlé, par définition via la construction fréquente et à long terme de tests. "Honnête" signifie ici l'absence de préjugés incontrôlés, de sélections cachées, etc.
Cependant, ni le robot, ni l'agence n'ont un intérêt personnel dans une drogue ou une pièce particulière qui passe par le convoyeur d'assemblage. En science, par contre, en tant qu’enquêteurs, nous nous soucions plus de l’hypothèse que nous étudions que de la proportion d’allégations fallacieuses dans notre journal favori auquel nous nous soumettons. Ni l'ampleur de la valeur de p ni les limites d'un intervalle de confiance (IC) ne se réfèrent directement à notre question sur la crédibilité de ce que nous rapportons. Lorsque nous construisons les bornes de CI, nous devrions dire que les deux chiffres ont pour seul sens que si d'autres scientifiques effectuent le même type de calcul de CI dans leurs études, la couverture de 95% ou toute autre couverture sera maintenue sur diverses études dans leur ensemble. .
Dans cette optique, je trouve paradoxal que les valeurs P soient "interdites" par les revues, étant donné qu’elles sont plus utiles aux rédacteurs de revues qu'aux chercheurs qui soumettent leurs articles, comme un moyen pratique de conserver la taux de résultats erronés rapportés par un journal à distance, à long terme. Les valeurs de p sont utiles pour filtrer ou, comme l’a écrit IJ Good, elles permettent de protéger l’arrière du statisticien, mais moins l’arrière du client.
PS Je suis un grand fan de l'idée de Benjamini et Hochberg de prendre l'attente inconditionnelle dans les études comportant plusieurs tests. Sous le "global" global, le FDR "fréquentiste" est toujours contrôlé - les études avec un ou plusieurs rejets apparaissent dans un journal à un rythme contrôlé, bien que, dans ce cas, toute étude dans laquelle certains rejets ont effectivement été réalisés a la proportion de faux rejets égal à un.
la source
Je suis d'accord avec Matt sur le fait que les valeurs de p sont utiles lorsque l'hypothèse nulle est vraie.
L’exemple le plus simple auquel je puisse penser est le test d’un générateur de nombres aléatoires. Si le générateur fonctionne correctement, vous pouvez utiliser n'importe quelle taille d'échantillon de réalisations appropriée. Lorsque vous testez l'ajustement sur de nombreux échantillons, les valeurs p doivent avoir une distribution uniforme. S'ils le font, c'est une bonne preuve d'une mise en œuvre correcte. S'ils ne le font pas, vous savez que vous avez commis une erreur quelque part.
D'autres situations similaires se produisent lorsque vous savez qu'une statistique ou une variable aléatoire devrait avoir une certaine distribution (encore une fois, le contexte le plus évident est la simulation). Si les valeurs p sont uniformes, vous avez trouvé un support pour une implémentation valide. Sinon, vous savez que vous avez un problème quelque part dans votre code.
la source
Je peux penser à un exemple dans lequel les valeurs p sont utiles dans la physique expérimentale des hautes énergies. Voir Fig. 1 Ce graphique est tiré de cet article: Observation d'une nouvelle particule dans la recherche du boson de Higgs modèle standard avec le détecteur ATLAS au LHC
Sur cette figure, la valeur p est représentée par rapport à la masse d'une particule hypothétique. L'hypothèse nulle dénote la compatibilité de l'observation avec un fond continu. La grande déviation ( ) à m GeV été la première preuve et découverte d’une nouvelle particule. Cela a valu à François Englert et Peter Higgs le prix Nobel de physique en 2013.H ≈ 1255σ H≈125
la source