Ziliak (2011) s'oppose à l'utilisation des valeurs de p et mentionne certaines alternatives; que sont-ils?

25

Dans un article récent sur les inconvénients de s'appuyer sur la valeur p pour l'inférence statistique, intitulé "Matrixx c. Siracusano et Student c. Fisher Statistical d'importance on trial" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak s'oppose à l'utilisation des valeurs de p. Dans les derniers paragraphes, il dit:

Les données sont la seule chose que nous savons déjà, et c'est certain. Ce que nous voulons réellement savoir, c'est quelque chose de tout à fait différent: la probabilité qu'une hypothèse soit vraie (ou du moins pratiquement utile), compte tenu des données dont nous disposons. Nous voulons connaître la probabilité que les deux médicaments soient différents et dans quelle mesure, compte tenu des preuves disponibles. Le test de signification - basé sur la fausseté du conditionnel transposé, le piège dans lequel Fisher est tombé - ne nous donne pas et ne peut pas nous dire cette probabilité. La fonction de puissance, la fonction de perte attendue et de nombreuses autres méthodes théoriques de décision et bayésiennes issues de Student et Jeffreys, désormais largement disponibles et gratuites en ligne, le font.

Quelle est la fonction de puissance, la fonction de perte attendue et les "autres méthodes théoriques de décision et bayésiennes"? Ces méthodes sont-elles largement utilisées? Sont-ils disponibles en R? Comment ces nouvelles méthodes suggérées sont-elles mises en œuvre? Comment, par exemple, utiliserais-je ces méthodes pour tester mon hypothèse dans un ensemble de données que j'utiliserais autrement les tests t et les valeurs p conventionnels à deux échantillons?

Ariel
la source
De nombreux articles plaident contre l'utilisation de valeurs seules, mais cela dépend vraiment du contexte, OMI. Pourriez-vous ajouter plus d'informations sur ce qui vous intéresse (cf. votre dernière phrase)? p
chl
2
Je n'ai pas accès à l'article, mais cet argument indique une compréhension plutôt erronée de ce qui se passe. Malgré une compréhension erronée, la conclusion selon laquelle d'autres statistiques méritent d'être prises en considération est raisonnable. La fonction de perte attendue est simplement une estimation de la valeur attendue de la fonction de perte (par exemple erreur quadratique, logistique, etc.).
Iterator
En raison d'un sujet similaire récemment publié , j'ai posé une question sur ce sujet sur Meta CV
Silverfish

Réponses:

17

Cela ressemble à un autre papier strident d'un individu confus. Fisher n'est pas tombé dans un tel piège, bien que de nombreux étudiants en statistique le fassent.

Le test d'hypothèse est un problème théorique de décision. Généralement, on se retrouve avec un test avec un seuil donné entre les deux décisions (hypothèse vraie ou hypothèse fausse). Si vous avez une hypothèse qui correspond à un seul point, telle que , alors vous pouvez calculer la probabilité que vos données résultent quand elles sont vraies. Mais que faites-vous si ce n'est pas un seul point? Vous obtenez une fonction de θ . L'hypothèse θ 0θ=0θθ0 est une telle hypothèse, et vous obtenez une telle fonction pour la probabilité de produire vos données observées étant donné que c'est vrai. Cette fonction est la fonction de puissance. C'est très classique. Fisher était au courant.

La perte attendue fait partie du mécanisme de base de la théorie de la décision. Vous avez différents états de la nature, et diverses données possibles qui en résultent, et certaines décisions possibles que vous pouvez prendre, et vous voulez trouver une bonne fonction des données à la décision. Comment définissez-vous le bien? Compte tenu d'un état de nature particulier sous-jacent aux données que vous avez obtenues et de la décision prise par cette procédure, quelle est votre perte attendue? Ceci est plus simplement compris dans les problèmes commerciaux (si je le fais sur la base des ventes que j'ai observées au cours des trois derniers trimestres, quelle est la perte monétaire attendue?).

Les procédures bayésiennes sont un sous-ensemble des procédures théoriques de décision. La perte attendue est insuffisante pour spécifier les meilleures procédures dans tous les cas, sauf triviaux. Si une procédure est meilleure qu'une autre dans les deux états A et B, vous la préférerez évidemment, mais si l'une est meilleure dans l'état A et l'autre est meilleure dans l'état B, laquelle choisissez-vous? C'est là que les idées auxiliaires comme les procédures de Bayes, la minimaxité et l'impartialité entrent.

ttαβpα de vous, etp-value s'adapte à cette utilisation.

Je suis également un peu confus quant à la raison pour laquelle il a nommé Student et Jeffreys ensemble, étant donné que Fisher était responsable de la large diffusion du travail de Student.

Fondamentalement, l'utilisation aveugle des valeurs de p est une mauvaise idée, et c'est un concept plutôt subtil, mais cela ne les rend pas inutiles. Devrions-nous nous opposer à leur utilisation abusive par des chercheurs ayant de faibles connaissances en mathématiques? Absolument, mais rappelons-nous à quoi cela ressemblait avant que Fisher n'essaye de distiller quelque chose pour que l'homme du champ l'utilise.

user873
la source
5
+1 pour avoir réellement répondu à la question, et un +1 supplémentaire (mais virtuel) pour contester la citation, ce qui est provocateur mais problématique. Je vois que vous êtes un participant récent ici mais avez déjà apporté de nombreuses réponses: merci beaucoup et bienvenue (un peu tard) à notre site!
whuber
Merci beaucoup pour votre réponse détaillée. Il est utile de réfléchir de manière critique aux stratégies alternatives suggérées dans cet article. J'ai posé cette question parce que certains collègues ont utilisé ce document pour dire que nous ne devrions pas du tout regarder les valeurs p et j'ai réalisé que je ne comprenais pas ce que ces alternatives signifiaient réellement. Merci pour la clarification!
Ariel
@whuber Je ne pense pas que cela réponde à la question. OP posait des questions sur les alternatives suggérées par Ziliak, et cette réponse ne les aborde pas. Par exemple, la critique de l'importance de Ziliak touche à la raison pour laquelle les gens utilisent une signification de 5% ou 1%. Il n'y a vraiment aucune raison solide, et il a pu retracer ces niveaux dans les papiers de Fisher. C'est juste un nombre arbitraire et pratique. Par opposition aux approches "alternatives" basées sur des avantages pécuniaires, à savoir les valeurs en dollars.
Aksakal
1
@Aksakal Je pense qu'une contribution importante est apportée à la conversation en reliant le test d'hypothèse à un problème de théorie de la décision et en reliant explicitement la valeur de p à un risque attendu (basé sur une fonction de perte 0-1).
whuber
6

Je recommande de se concentrer sur des choses comme les intervalles de confiance et la vérification des modèles. Andrew Gelman a fait un excellent travail à ce sujet. Je recommande ses manuels mais aussi les trucs qu'il a mis en ligne, par exemple http://andrewgelman.com/2011/06/the_holes_in_my/

Michael Bishop
la source
5

Le package ez fournit des rapports de vraisemblance lorsque vous utilisez la ezMixed()fonction pour effectuer une modélisation à effets mixtes. Les ratios de vraisemblance visent à quantifier les preuves d'un phénomène en comparant la probabilité (compte tenu des données observées) de deux modèles: un modèle "restreint" qui limite l'influence du phénomène à zéro et un modèle "non restreint" qui permet une influence non nulle de le phénomène. Après avoir corrigé les probabilités observées pour la complexité différentielle des modèles (via le critère d'information d'Akaike, qui est asymptotiquement équivalent à la validation croisée), le ratio quantifie les preuves du phénomène.

Mike Lawrence
la source
4

Toutes ces techniques sont disponibles en R dans le même sens que toute l'algèbre est disponible dans votre crayon. Même les valeurs de p sont disponibles via de nombreuses fonctions différentes dans R, décider quelle fonction utiliser pour obtenir une valeur de p ou un postérieur bayésien est plus complexe qu'un pointeur vers une seule fonction ou un seul package.

Une fois que vous avez appris ces techniques et décidé de la question à laquelle vous souhaitez réellement répondre, vous pouvez voir (ou nous pouvons vous fournir plus d'aide) comment le faire à l'aide de R (ou d'autres outils). Dire simplement que vous voulez minimiser votre fonction de perte ou obtenir une distribution postérieure est à peu près aussi utile que de répondre à "nourriture" lorsqu'on vous demande ce que vous voulez manger pour le dîner.

Greg Snow
la source