Quand utiliser le cadre Fisher et Neyman-Pearson?

73

J'ai beaucoup lu récemment sur les différences entre la méthode de test des hypothèses de Fisher et l'école de pensée Neyman-Pearson.

Ma question est, en ignorant les objections philosophiques pour un moment; quand devrions-nous utiliser l'approche de Fisher en matière de modélisation statistique et quand devrions-nous utiliser la méthode de Neyman-Pearson pour les niveaux de signification et cetera? Existe-t-il un moyen pratique de décider quel point de vue souscrire à un problème concret donné?

Stijn
la source
Où avez-vous lu à ce sujet? S'il vous plaît, citez vos sources.
xmjx
8
Voir, par exemple, ici ( jstor.org/stable/2291263 ) ou ici ( stats.org.uk/statistical-inference/Lenhard2006.pdf ).
Stijn

Réponses:

83

|X¯-100|

Fisher pensait que la valeur p pourrait être interprétée comme une mesure continue de la preuve par rapport à l'hypothèse nulle . Il n'y a pas de valeur fixe particulière à laquelle les résultats deviennent «significatifs». J'essaie généralement de faire comprendre cela aux gens en faisant remarquer que, à toutes fins utiles, p = 0,049 et p = 0,051 constituent une quantité identique d'éléments de preuve contre l'hypothèse nulle (voir la réponse de @ Henrik ici ). .

D'autre part, Neyman & Pearson pensait que vous pourriez utiliser la valeur p dans le cadre d' un processus décisionnel formalisé . À la fin de votre enquête, vous devez soit rejeter l'hypothèse nulle, soit ne pas rejeter l'hypothèse nulle. De plus, l'hypothèse nulle pourrait être vraie ou non vraie. Ainsi, il y a quatre possibilités théoriques (bien que, dans une situation donnée, il n'y en a que deux): vous pouvez prendre une décision correcte (ne pas rejeter une hypothèse vraie - ou rejeter une hypothèse fausse - nulle), ou vous pouvez créer un type Erreur I ou de type II (en refusant un vrai null ou en omettant de rejeter une hypothèse faux faux, respectivement). (Notez que la valeur p n’est pas la même chose que le taux d’erreur de type I, dont je discute iciαp<α

Les approches Fisherian et Neyman-Pearson ne sont pas les mêmes . L'argument central du cadre Neyman-Pearson est que, à la fin de votre étude, vous devez prendre une décision et vous en aller. Un chercheur aurait jadis approché Fisher avec des résultats «non significatifs», lui demandant ce qu’il devait faire, et Fisher avait déclaré: «allez chercher plus de données».


Personnellement, je trouve l’élégante logique de l’approche Neyman-Pearson très séduisante. Mais je ne pense pas que ce soit toujours approprié. À mon avis, au moins deux conditions doivent être remplies avant que le cadre Neyman-Pearson soit pris en compte:

  1. Il devrait exister une autre hypothèse spécifique ( ampleur de l'effet ) qui vous tient à coeur pour une raison quelconque. (Je ne me soucie pas de la taille de l'effet, de la raison de votre choix, qu'il soit fondé ou cohérent, etc., mais que vous en avez un.)
  2. Il devrait y avoir une raison de penser que l'effet sera «significatif» si l'hypothèse alternative est vraie. (En pratique, cela signifie généralement que vous avez effectué une analyse de l'alimentation et que vous avez suffisamment de données.)

Lorsque ces conditions ne sont pas remplies, la valeur p peut toujours être interprétée conformément aux idées de Fisher. De plus, il me semble probable que la plupart du temps, ces conditions ne sont pas remplies. Voici quelques exemples simples qui vous viennent à l’esprit, où les tests sont exécutés, mais les conditions ci-dessus ne sont pas remplies:

  • ANOVA omnibus pour un modèle de régression multiple (il est possible de comprendre comment tous les paramètres de pente non nuls supposés s'unissent pour créer un paramètre de non-centralité pour la distribution F , mais ce n'est pas intuitif à distance et je doute que quiconque le fait)
  • W
  • la valeur d'un test d'homogénéité de variance (par exemple, test de Levene ; mêmes commentaires que ci-dessus)
  • tout autre test pour vérifier les hypothèses, etc.
  • tests t de covariables autres que la variable explicative d'intérêt principal dans l'étude
  • recherche initiale / exploratoire (p. ex. études pilotes)
gung - Rétablir Monica
la source
Même s'il s'agit d'un sujet plus ancien, la réponse est très appréciée. +1
Stijn
+1 excellente réponse! Je suis impressionné par votre capacité à expliquer ces concepts de manière aussi concise.
COOLSerdash
1
C'est une réponse vraiment merveilleuse, @gung
Patrick S. Forscher
5
D'après mes connaissances, Neyman-Pearson n'a pas utilisé les valeurs p de Fisher et par conséquent un critère "p <alpha". Ce que vous appelez "Neyman-Pearson" est en réalité un "test de signification des hypothèses nuls" (un hybride de Fisher et NP), et non une théorie de décision pure de Neyman-Pearson.
Frank
"si la valeur de référence était le paramètre de population réel." Pour être précis, c’est "si la distribution de probabilité est celle spécifiée dans l’hypothèse nulle". L'hypothèse nulle ne spécifie pas simplement des statistiques résumées telles qu'une moyenne, elle spécifie une distribution de probabilité entière. Souvent, la famille de distribution est considérée comme implicite (par exemple, une distribution normale), point auquel la spécification des paramètres spécifie la distribution.
Accumulation du
18

La praticité est dans l'oeil du spectateur, mais;

  • Les tests de signification de Fisher peuvent être interprétés comme un moyen de décider si les données suggèrent ou non un «signal» intéressant. Nous rejetons l'hypothèse nulle (qui peut être une erreur de type I) ou ne disons rien du tout. Par exemple, dans de nombreuses applications «omiques» modernes, cette interprétation convient; nous ne voulons pas commettre trop d’erreurs de type I, nous voulons tirer les signaux les plus excitants, même si nous pouvons en rater certains.

  • L'hypothèse de Neyman-Pearson est logique lorsqu'il existe deux alternatives disjointes (par exemple, le boson de Higgs existe ou n'existe pas) entre lesquelles nous décidons. Outre le risque d'erreur de type I, nous pouvons également commettre ici une erreur de type II - lorsqu'il y a un signal réel mais que nous disons que ce n'est pas le cas, en prenant une décision "nulle". L'argument de NP était que, sans générer trop de taux d'erreur de type I, nous souhaitons minimiser le risque d'erreur de type II.

Souvent, aucun des deux systèmes ne semblera parfait - par exemple, vous voudrez peut-être simplement une estimation ponctuelle et une mesure correspondante de l'incertitude. De plus, la version que vous utilisez n'a pas d'importance , car vous indiquez la valeur p et laissez l'interprétation du test au lecteur. Mais pour choisir entre les approches ci-dessus, déterminez si les erreurs de type II sont pertinentes pour votre application.

client
la source
5

Le fait est que vous ne pouvez pas ignorer les différences philosophiques. Une procédure mathématique en statistique ne se limite pas à quelque chose que vous appliquez sans quelques hypothèses sous-jacentes, hypothèses, théorie… philosophie.

Cela dit, si vous tenez à rester fidèle aux philosophies fréquentistes, il pourrait y avoir quelques problèmes très spécifiques pour lesquels Neyman-Pearson doit vraiment être pris en compte. Ils tombaient tous dans la classe des tests répétés comme le contrôle de qualité ou l'IRMf. Définir un alpha spécifique à l’avance et prendre en compte l’ensemble du cadre de type I, de type II et du pouvoir devient plus important dans ce contexte.

John
la source
Je n'insiste pas pour m'en tenir aux statistiques fréquentistes, mais je me demandais simplement s'il y avait des situations où l'adoption d'un point de vue de Fisher ou de Neyman-Pearson pourrait être naturelle. Je sais qu'il existe une distinction philosophique, mais peut-être qu'il y a aussi un aspect pratique à prendre en compte?
Stijn
3
OK, bien, à peu près ce que j'ai dit ... Neyman-Pearson était vraiment préoccupé par les situations dans lesquelles vous faites beaucoup de tests sans réelle base théorique pour chacun. Le point de vue de Fisher ne règle pas vraiment ce problème.
Jean
1

Ma compréhension est la suivante: p-value consiste à nous dire ce qu’il faut croire (vérifier une théorie avec suffisamment de données) alors que l’approche de Neyman-Pearson consiste à nous dire quoi faire (prendre les meilleures décisions possibles même avec des données limitées). Donc, il me semble que la (petite) valeur p est plus stricte que l'approche de Neyman-Pearson est plus pragmatique; C'est probablement pourquoi la valeur p est davantage utilisée pour répondre à des questions scientifiques que Neyman et Pearson pour prendre des décisions statistiques / pratiques.

chaohuang
la source