J'essaie de comprendre la déclaration d'ensemble faite dans Taleb, 2016, La méta-distribution des valeurs P standard .
Dans ce document, Taleb avance l'argument suivant pour le manque de fiabilité de la valeur de p (si je comprends bien):
Une procédure d'estimation opérant sur points de données provenant d'une distribution X donne une valeur ap. Si nous tirons n points de plus de cette distribution et produisons une autre valeur p, nous pouvons faire la moyenne de ces valeurs p en obtenant dans la limite la soi-disant "vraie valeur p".
Il est démontré que cette "vraie valeur de p" présente une variance inquiétante, de sorte qu'une distribution + procédure avec une "vraie valeur de p" indiquera 60% du temps une valeur de p <0,05.
Question : comment concilier cela avec l'argument traditionnel en faveur de la valeur . Si je comprends bien, la valeur p est censée vous dire quel pourcentage du temps votre procédure vous donnera l'intervalle correct (ou autre). Cependant, cet article semble faire valoir que cette interprétation est trompeuse car la valeur p ne sera pas la même si vous exécutez à nouveau la procédure.
Suis-je en train de manquer le point?
la source
Réponses:
Une valeur de p est une variable aléatoire.
Sous (au moins pour une statistique à distribution continue), la valeur de p devrait avoir une distribution uniformeH0
Pour un test cohérent, sous la valeur de p devrait aller à 0 dans la limite lorsque la taille des échantillons augmente vers l'infini. De même, à mesure que la taille des effets augmente, les distributions des valeurs de p devraient également tendre vers 0, mais elles seront toujours "étalées".H1
La notion d'une «vraie» valeur de p me semble absurde. Qu'est-ce que cela signifierait, sous ou H 1 ? Vous pourriez par exemple dire que vous voulez dire " la moyenne de la distribution des valeurs de p à une taille d'effet et une taille d'échantillon données ", mais dans quel sens avez-vous une convergence où l'écart devrait se réduire? Ce n'est pas comme si vous pouviez augmenter la taille de l'échantillon tout en le maintenant constant.H0 H1
C'est exactement la façon dont les valeurs p sont censées se comporter - pour un faux nul, à mesure que la taille de l'échantillon augmente, les valeurs p devraient devenir plus concentrées à des valeurs faibles, mais rien ne suggère que la distribution des valeurs qu'il prend lorsque vous faire une erreur de type II - lorsque la valeur de p est supérieure à votre niveau de signification - devrait en quelque sorte se «rapprocher» de ce niveau de signification.
Que serait alors une valeur de p une estimationα = 0,05
Il est souvent utile de considérer ce qui se passe à la fois avec la distribution de la statistique de test que vous utilisez sous l'alternative et ce que l'application du cdf sous null comme une transformation à cela fera à la distribution (qui donnera la distribution de la valeur de p sous l'alternative spécifique). Quand vous pensez en ces termes, il n'est souvent pas difficile de voir pourquoi le comportement est tel qu'il est.
Le problème tel que je le vois n'est pas tant qu'il y ait un problème inhérent avec les valeurs de p ou les tests d'hypothèse, c'est plus une question de savoir si le test d'hypothèse est un bon outil pour votre problème particulier ou si quelque chose d'autre serait plus approprié. dans tous les cas particuliers - ce n'est pas une situation pour les polémiques à grande échelle, mais une considération attentive du type de questions auxquelles les tests d'hypothèse répondent et des besoins particuliers de votre situation. Malheureusement, un examen attentif de ces questions est rarement fait - trop souvent, on voit une question de la forme "quel test dois-je utiliser pour ces données?" sans aucune considération de ce que pourrait être la question d'intérêt, et encore moins si un test d'hypothèse est un bon moyen d'y répondre.
L'une des difficultés est que les tests d'hypothèse sont à la fois largement mal compris et largement mal utilisés; les gens pensent très souvent qu'ils nous disent des choses qu'ils ne disent pas. La valeur de p est probablement l'élément le plus mal compris des tests d'hypothèse.
la source
La réponse de Glen_b est parfaite (+1; considérez la mienne comme supplémentaire). L'article que vous référencez par Taleb est très similaire à une série d'articles dans la littérature de psychologie et de statistiques sur le type d'informations que vous pouvez glaner en analysant les distributions des valeurs de p (ce que les auteurs appellent la courbe de p ; voir leur site avec un tas de ressources, y compris une application d'analyse de courbe p ici ).
Les auteurs proposent deux utilisations principales de la courbe p:
Donc, en ce qui concerne votre question plus large de:
Je dirais que des méthodes comme Taleb (et d'autres) ont trouvé un moyen de réutiliser les valeurs p, afin que nous puissions obtenir des informations utiles sur des littératures entières en analysant des groupes de valeurs p, alors qu'une seule valeur p seule pourrait être beaucoup plus limitée dans son utilité.
Les références
Simonsohn, U., Nelson, LD et Simmons, JP (2014a). Courbe en P: une clé pour le tiroir de fichiers. Journal of Experimental Psychology: General , 143 , 534–547.
Simonsohn, U., Nelson, LD et Simmons, JP (2014b). Courbe P et taille d'effet: correction du biais de publication en utilisant uniquement des résultats significatifs. Perspectives on Psychological Science , 9 , 666-681.
Simonsohn, U., Simmons, JP et Nelson, LD (2015). Meilleures courbes P: rendre l'analyse des courbes P plus robuste aux erreurs, à la fraude et au piratage P ambitieux, une réponse à Ulrich et Miller (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.
la source