J'ai beaucoup lu récemment sur les différences entre la méthode de test des hypothèses de Fisher et l'école de pensée Neyman-Pearson.
Ma question est, en ignorant les objections philosophiques pour un moment; quand devrions-nous utiliser l'approche de Fisher en matière de modélisation statistique et quand devrions-nous utiliser la méthode de Neyman-Pearson pour les niveaux de signification et cetera? Existe-t-il un moyen pratique de décider quel point de vue souscrire à un problème concret donné?
Réponses:
Fisher pensait que la valeur p pourrait être interprétée comme une mesure continue de la preuve par rapport à l'hypothèse nulle . Il n'y a pas de valeur fixe particulière à laquelle les résultats deviennent «significatifs». J'essaie généralement de faire comprendre cela aux gens en faisant remarquer que, à toutes fins utiles, p = 0,049 et p = 0,051 constituent une quantité identique d'éléments de preuve contre l'hypothèse nulle (voir la réponse de @ Henrik ici ). .
D'autre part, Neyman & Pearson pensait que vous pourriez utiliser la valeur p dans le cadre d' un processus décisionnel formalisé . À la fin de votre enquête, vous devez soit rejeter l'hypothèse nulle, soit ne pas rejeter l'hypothèse nulle. De plus, l'hypothèse nulle pourrait être vraie ou non vraie. Ainsi, il y a quatre possibilités théoriques (bien que, dans une situation donnée, il n'y en a que deux): vous pouvez prendre une décision correcte (ne pas rejeter une hypothèse vraie - ou rejeter une hypothèse fausse - nulle), ou vous pouvez créer un type Erreur I ou de type II (en refusant un vrai null ou en omettant de rejeter une hypothèse faux faux, respectivement). (Notez que la valeur p n’est pas la même chose que le taux d’erreur de type I, dont je discute iciα p < α
Les approches Fisherian et Neyman-Pearson ne sont pas les mêmes . L'argument central du cadre Neyman-Pearson est que, à la fin de votre étude, vous devez prendre une décision et vous en aller. Un chercheur aurait jadis approché Fisher avec des résultats «non significatifs», lui demandant ce qu’il devait faire, et Fisher avait déclaré: «allez chercher plus de données».
Personnellement, je trouve l’élégante logique de l’approche Neyman-Pearson très séduisante. Mais je ne pense pas que ce soit toujours approprié. À mon avis, au moins deux conditions doivent être remplies avant que le cadre Neyman-Pearson soit pris en compte:
Lorsque ces conditions ne sont pas remplies, la valeur p peut toujours être interprétée conformément aux idées de Fisher. De plus, il me semble probable que la plupart du temps, ces conditions ne sont pas remplies. Voici quelques exemples simples qui vous viennent à l’esprit, où les tests sont exécutés, mais les conditions ci-dessus ne sont pas remplies:
la source
La praticité est dans l'oeil du spectateur, mais;
Les tests de signification de Fisher peuvent être interprétés comme un moyen de décider si les données suggèrent ou non un «signal» intéressant. Nous rejetons l'hypothèse nulle (qui peut être une erreur de type I) ou ne disons rien du tout. Par exemple, dans de nombreuses applications «omiques» modernes, cette interprétation convient; nous ne voulons pas commettre trop d’erreurs de type I, nous voulons tirer les signaux les plus excitants, même si nous pouvons en rater certains.
L'hypothèse de Neyman-Pearson est logique lorsqu'il existe deux alternatives disjointes (par exemple, le boson de Higgs existe ou n'existe pas) entre lesquelles nous décidons. Outre le risque d'erreur de type I, nous pouvons également commettre ici une erreur de type II - lorsqu'il y a un signal réel mais que nous disons que ce n'est pas le cas, en prenant une décision "nulle". L'argument de NP était que, sans générer trop de taux d'erreur de type I, nous souhaitons minimiser le risque d'erreur de type II.
Souvent, aucun des deux systèmes ne semblera parfait - par exemple, vous voudrez peut-être simplement une estimation ponctuelle et une mesure correspondante de l'incertitude. De plus, la version que vous utilisez n'a pas d'importance , car vous indiquez la valeur p et laissez l'interprétation du test au lecteur. Mais pour choisir entre les approches ci-dessus, déterminez si les erreurs de type II sont pertinentes pour votre application.
la source
Le fait est que vous ne pouvez pas ignorer les différences philosophiques. Une procédure mathématique en statistique ne se limite pas à quelque chose que vous appliquez sans quelques hypothèses sous-jacentes, hypothèses, théorie… philosophie.
Cela dit, si vous tenez à rester fidèle aux philosophies fréquentistes, il pourrait y avoir quelques problèmes très spécifiques pour lesquels Neyman-Pearson doit vraiment être pris en compte. Ils tombaient tous dans la classe des tests répétés comme le contrôle de qualité ou l'IRMf. Définir un alpha spécifique à l’avance et prendre en compte l’ensemble du cadre de type I, de type II et du pouvoir devient plus important dans ce contexte.
la source
Ma compréhension est la suivante: p-value consiste à nous dire ce qu’il faut croire (vérifier une théorie avec suffisamment de données) alors que l’approche de Neyman-Pearson consiste à nous dire quoi faire (prendre les meilleures décisions possibles même avec des données limitées). Donc, il me semble que la (petite) valeur p est plus stricte que l'approche de Neyman-Pearson est plus pragmatique; C'est probablement pourquoi la valeur p est davantage utilisée pour répondre à des questions scientifiques que Neyman et Pearson pour prendre des décisions statistiques / pratiques.
la source