Il existe une certaine école de pensée selon laquelle l'approche la plus répandue du test statistique est un "hybride" entre deux approches: celle de Fisher et celle de Neyman-Pearson; La revendication affirme que ces deux approches sont "incompatibles" et que, par conséquent, "hybride" est un "méli-mélo incohérent". Je fournirai une bibliographie et quelques citations ci-dessous, mais pour l’instant, il suffit de dire que l’article sur les tests d’hypothèses statistiques contient de nombreuses informations à ce sujet . Ici sur CV, ce point a été répété à plusieurs reprises par @Michael Lew (voir ici et ici ).
Ma question est la suivante: pourquoi les approches F et NP sont-elles considérées comme incompatibles et pourquoi l'hybride est-il prétendu incohérent? Notez que j'ai lu au moins six articles anti-hybrides (voir ci-dessous), mais que je ne comprends toujours pas le problème ou l'argument. Notez également que je ne suggère pas de débattre si F ou NP est une meilleure approche; Je ne propose pas non plus de discuter de cadres fréquentistes ou bayésiens. Au lieu de cela, la question est la suivante: en acceptant que F et NP soient des approches valables et significatives, qu’en est-il de leur comportement hybride?
Voici comment je comprends la situation. L'approche de Fisher consiste à calculer la valeur et à la prendre comme une preuve contre l'hypothèse nulle. Plus le p est petit , plus la preuve est convaincante. Le chercheur est censé combiner ces preuves avec ses connaissances de base, décider si elles sont suffisamment convaincantes et procéder en conséquence. (Notez que les points de vue de Fisher ont changé au fil des ans, mais c'est ce vers quoi il semble avoir finalement convergé.) En revanche, l'approche de Neyman-Pearson consiste à choisir α à l' avance et à vérifier ensuite si p ≤ α; si tel est le cas, appelez-le significatif et rejetez l'hypothèse nulle (j'omets ici une grande partie de l'histoire de NP qui n'a aucune pertinence pour la discussion en cours). Voir aussi une excellente réponse de @gung dans Quand utiliser les frameworks Fisher et Neyman-Pearson?
L'approche hybride consiste à calculer la valeur , à la signaler (en supposant implicitement que le plus petit est le meilleur) et à appeler les résultats significatifs si p ≤ α (généralement α = 0,05 ) et non significatifs dans le cas contraire. Ceci est supposé être incohérent. Comment peut-il être invalide de faire deux choses valides simultanément, me bat.
Comme particulièrement incohérente la vue anti-hybrideurs la pratique généralisée des rapports -values comme p < 0,05 , p < 0,01 ou p < 0,001 (ou même p « 0,0001 ), où toujours l'inégalité la plus forte est choisie. L’argument semble être que (a) la force de la preuve ne peut pas être correctement évaluée, car p exact n’est pas rapporté, et (b) les gens ont tendance à interpréter le nombre de droite dans l’inégalité comme α et à le considérer comme un taux d’erreur de type I et c'est faux. Je ne vois pas un gros problème ici. Tout d'abord, en rapportant exactement pC’est certainement une meilleure pratique, mais personne ne se soucie vraiment de si est par exemple 0,02 ou 0,03 , donc l’arrondir sur une échelle logarithmique n’est pas si mauvais (et aller au-dessous de ∼ 0,0001 n’a aucun sens de toute façon, voir Comment faut-il signaler de très petites valeurs p ? ) Deuxièmement, si le consensus est d'appeler tout ce qui est inférieur à 0,05 significatif, alors le taux d'erreur sera α = 0,05 et p ≠ α , comme l'explique @gung dans Interprétation de la valeur p dans les tests d'hypothèses.. Même s'il s'agit d'un problème potentiellement déroutant, cela ne me semble pas plus déroutant que d'autres problèmes liés aux tests statistiques (en dehors de l'hybride). En outre, chaque lecteur peut avoir à l'esprit son propre préféré lors de la lecture d'un document hybride, et son propre taux d'erreur en conséquence. Alors, quel est le problème?
L'une des raisons pour lesquelles je veux poser cette question est qu'il est vraiment pénible de voir combien de l'article de Wikipédia sur les tests d'hypothèses statistiques est consacré à la lambasting hybride. Après Halpin & Stam, il affirme qu’un certain Lindquist est à blâmer (il existe même un grand scan de son manuel avec des "erreurs" surlignées en jaune), et bien sûr l’article du wiki sur Lindquist lui-même commence par la même accusation. Mais alors, peut-être me manque quelque chose.
Références
Gigerenzer, 1993, Le Surmoi, le Moi et l'Id dans le raisonnement statistique - a introduit le terme "hybride" et l'a appelé "méli-mélo incohérent"
- Voir aussi les expositions plus récentes de Gigerenzer et al.: Par exemple, Mindless Statistics (2004) et The Null Ritual. Ce que vous avez toujours voulu savoir sur le test d'importance sans jamais oser le demander (2004).
Goodman, 1999, Vers des statistiques médicales fondées sur des preuves. 1: L'erreur sophistique
Halpin & Stam, 2006, Inférence inductive ou comportement inductif: approches de Fisher et Neyman-Pearson concernant les tests statistiques en recherche psychologique (1940-1960) [gratuit après inscription] - reproche au manuel de Lindquist, 1940, d'avoir introduit l'approche "hybride"
@Michael Lew, 2006, Mauvaise pratique statistique en pharmacologie (et dans d'autres disciplines biomédicales de base): vous ne connaissez probablement pas P - une belle revue et vue d'ensemble
Citations
Gigerenzer: Ce qui est devenu institutionnalisé en tant que statistique inférentielle en psychologie n'est pas une statistique de pêcheur. C'est un méli-mélo incohérent de certaines des idées de Fisher, d'une part, et de celles de Neyman et de ES Pearson, de l'autre. Je fais référence à ce mélange en tant que "logique hybride" de l'inférence statistique.
Goodman: L’approche de test d’hypothèse [Neyman-Pearson] offrait aux scientifiques un marché faustien - un moyen apparemment automatique de limiter le nombre de conclusions erronées à long terme, mais uniquement en abandonnant la capacité de mesurer les preuves [à la Fisher] et d’évaluer la vérité d'une seule expérience.
avec le test d'hypothèse de Neyman-Pearson dans lequel il est devenu intégré. [...] Par exemple, Gibbons et Pratt [...] ont déclaré à tort: "Le fait de déclarer une valeur P, qu'elle soit exacte ou dans un intervalle, permet en effet à chaque individu de choisir son propre niveau d'importance comme probabilité maximale tolérable. d'une erreur de type I. "
Halpin & Stam: Le texte de Lindquist datant de 1940 était une source originale de l'hybridation des approches Fisher et Neyman-Pearson. [...] plutôt que de s'en tenir à une interprétation particulière des tests statistiques, les psychologues sont restés ambivalents, voire méconnus, des difficultés conceptuelles soulevées par la controverse Fisher et Neyman-Pearson.
Lew: Ce que nous avons est une approche hybride qui ne contrôle ni les taux d'erreur ni l'évaluation de la force de la preuve.
la source
Réponses:
Je crois que les articles, articles, articles, etc. que vous avez rassemblés avec diligence contiennent suffisamment d’informations et d’analyses pour savoir où et pourquoi les deux approches sont différentes. Mais être différent ne signifie pas être incompatible .
Le problème avec "hybride" est qu’il s’agit d’un hybride et non d’une synthèse , raison pour laquelle il est considéré par beaucoup comme un hybris , si vous excusez le jeu de mots.
N’étant pas une synthèse, il ne tente pas de combiner les différences entre les deux approches, ni de créer une approche unifiée et cohérente en interne, ni de conserver les deux approches dans l’arsenal scientifique comme alternatives complémentaires, afin de traiter plus efficacement le très complexe monde nous essayons d’analyser à travers les statistiques (heureusement, cette dernière chose est ce qui semble se passer avec l’autre grande guerre civile du champ, celle des fréquents-bayésiens).
Le mécontentement à son égard découle du fait qu’il a effectivement créé un malentendu lors de l’ application des outils statistiques et de l’ interprétation des résultats statistiques , principalement par des scientifiques qui ne sont pas des statisticiens , qui peut avoir des effets très graves et dommageables (réflexion sur le terrain). la médecine aide à donner à la question son ton dramatique approprié). Je pense que cette mauvaise application est largement acceptée comme un fait et, en ce sens, le point de vue "anti-hybride" peut être considéré comme généralisé (du moins en raison de ses conséquences, sinon pour ses problèmes méthodologiques).
Je crois que l’hybride a émergé de la prise de conscience qu’il n’existait pas de réponse aussi simple et qu’il existait des phénomènes réels dans lesquels l’une des méthodes était plus adaptée que l’autre (voir cet article pour un tel exemple, selon moi à moins, où l’approche des pêcheurs semble plus appropriée). Mais au lieu de garder les deux "séparés et prêts à agir", ils ont été superposés de manière assez superficielle.
Je propose une source qui résume cette approche "alternative complémentaire": Spanos, A. (1999). Théorie des probabilités et inférence statistique: modélisation économétrique à l'aide de données d'observation. La presse de l'Universite de Cambridge. , ch. 14 , en particulier la section 14.5, où, après avoir présenté formellement et distinctement les deux approches, l'auteur est en mesure d'indiquer clairement leurs différences et de soutenir qu'elles peuvent être considérées comme des alternatives complémentaires.
la source
Ma propre réponse à ma question est qu’il n’ya rien de particulièrement incohérent dans l’approche hybride (c’est-à-dire acceptée). Mais comme je ne savais pas si je n'arrivais peut-être pas à comprendre la validité des arguments présentés dans les documents anti-hybrides, j'ai été heureux de trouver la discussion publiée avec ce document:
Malheureusement, deux réponses publiées sous forme de discussion n'ont pas été présentées sous forme d'articles distincts et ne peuvent donc pas être citées correctement. Néanmoins, je voudrais citer l'un et l'autre:
Les deux réponses méritent d'être lues. Il y a aussi une réplique des auteurs originaux, qui ne me semble pas convaincante du tout .
la source
Je crains qu'une réponse réelle à cette excellente question ne nécessite un texte intégral. Cependant, voici quelques points qui ne figurent ni dans la question ni dans les réponses actuelles.
Le taux d'erreur "appartient" à la procédure mais la preuve "appartient" aux résultats expérimentaux. Ainsi, il est possible avec des procédures à plusieurs étapes avec des règles d’arrêt séquentielles d’obtenir un résultat avec des preuves très solides contre l’hypothèse nulle mais un résultat de test d’hypothèse non significatif. Cela peut être considéré comme une incompatibilité forte.
Si vous êtes intéressé par les incompatibilités, vous devriez vous intéresser aux philosophies sous-jacentes. La difficulté philosophique vient du choix entre le respect du principe de vraisemblance et le respect du principe de l'échantillonnage répété. Le scénario dit en gros que, dans le cas d’un modèle statistique, les preuves d’un ensemble de données correspondant au paramètre considéré sont entièrement contenues dans la fonction de vraisemblance pertinente. Le RSP dit qu'il faut préférer les tests qui donnent des taux d'erreur à long terme égaux à leurs valeurs nominales.
la source
Une union souvent vue (et supposée acceptée) (ou mieux: "hybride") entre les deux approches est la suivante:
Si la valeur de p n'est pas assez petite, vous diriez
Ici, les aspects de Neyman-Pearson sont:
Les aspects liés à la pêche sont:
AJOUTER
Bien qu'il soit bon de prendre connaissance de la discussion sur les problèmes philosophiques de Fisher's, des NP ou de cette approche hybride (comme l'enseignent certaines personnes en frénésie religieuse), il existe beaucoup plus de problèmes pertinents en matière de statistiques à combattre:
la source
Réponse courte: utilisation d'une hypothèse nulle nulle (sans différence, sans corrélation), quel que soit le contexte. Tout le reste est un "abus" par des personnes qui se sont créé des mythes sur les résultats possibles du processus. Les mythes découlent du fait que des personnes tentent de concilier leur utilisation (parfois appropriée) de la confiance en l'autorité et des heuristiques consensuelles avec l'inapplicabilité de la procédure à leur problème.
Autant que je sache, Gerd Gigerenzer a proposé le terme "hybride":
Gigerenzer, G (novembre 2004). " Statistiques stupides ". The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.
Edit: Et nous devrions toujours mentionner, parce que "l'hybride" est tellement glissant et mal défini, que l'utilisation de la valeur null null pour obtenir une valeur p est tout à fait correcte pour comparer les tailles d'effet avec différentes tailles d'échantillons. C'est l'aspect "test" qui introduit le problème.
Edit 2: @amoeba Une valeur p peut être considérée comme une statistique récapitulative. Dans ce cas, l'hypothèse Null null n'est qu'un repère arbitraire: http://arxiv.org/abs/1311.0081 . Cependant, dès que vous commencez à essayer de tirer une conclusion ou à prendre une décision (c'est-à-dire "tester" l'hypothèse nulle), cela n'a plus de sens. Dans l’exemple comparatif de deux groupes, nous voulons savoir en quoi ces deux groupes sont différents et quelles sont les différentes explications possibles des différences de cette ampleur et de ce type.
La valeur p peut être utilisée sous forme de statistique récapitulative nous indiquant l'ampleur de la différence. Cependant, l’utiliser pour "réfuter / rejeter" la différence zéro ne sert à rien. De plus, je pense que beaucoup de ces études comparant les mesures moyennes des êtres vivants à un moment donné sont erronées. Nous devrions observer comment les instances individuelles du système changent au fil du temps, puis mettre au point un processus expliquant le schéma observé (y compris les différences éventuelles entre les groupes).
la source
Je vois que ceux qui ont plus d'expertise que moi ont fourni des réponses, mais je pense que ma réponse a le potentiel d'ajouter quelque chose de plus, alors je vais l'offrir comme point de vue d'un autre profane.
L'approche hybride est-elle incohérente? Je dirais que cela dépend si le chercheur finit par agir de manière incohérente avec les règles avec lesquelles il a commencé: en particulier la règle oui / non qui entre en jeu avec la définition d'une valeur alpha.
Incohérent
Commencez avec Neyman-Pearson. Le chercheur définit alpha = 0,05, lance l’expérience, calcule p = 0,052. Le chercheur examine cette valeur p et, à l’aide de l’inférence de Fisher (souvent implicitement), considère le résultat comme étant suffisamment incompatible avec l’hypothèse de test voulant qu’il va toujours prétendre que quelque chose se passe. Le résultat est en quelque sorte "assez bon" même si la valeur p était supérieure à la valeur alpha. Cela est souvent associé à des termes tels que "presque significatif" ou "tendant vers une signification" ou à une formulation allant dans ce sens.
Cependant, définir une valeur alpha avant de lancer l’expérience signifie que l’on a choisi l’approche du comportement inductif de Neyman-Pearson. Le choix d'ignorer cette valeur alpha après le calcul de la valeur p, et donc de prétendre que quelque chose est toujours intéressant, compromet toute l'approche par laquelle on a commencé. Si un chercheur commence par le sentier A (Neyman-Pearson), puis saute sur un autre sentier (Fisher) une fois qu'il n'aime pas le sentier sur lequel il se trouve, je le considère comme incohérent. Ils ne sont pas compatibles avec les règles (implicites) avec lesquelles ils ont commencé.
Cohérent (éventuellement)
Commencez avec NP. Le chercheur définit alpha = 0,05, lance l’expérience, calcule p = 0,0014. Le chercheur observe que p <alpha et rejette donc l'hypothèse de test (généralement aucun effet nul) et accepte l'hypothèse alternative (l'effet est réel). À ce stade, le chercheur, en plus de décider de traiter le résultat comme un effet réel (NP), décide d’inférer (Fisher) que l’expérience fournit une preuve très forte que l’effet est réel. Ils ont ajouté de la nuance à l’approche de départ, mais n’ont pas contredit les règles établies en choisissant une valeur alpha au début.
Sommaire
Si on commence par choisir une valeur alpha, alors on a décidé de suivre le chemin de Neyman-Pearson et de suivre les règles pour cette approche. Si, à un moment donné, ils enfreignent ces règles en invoquant l'inférence de Fisher, ils ont alors agi de manière incohérente ou incohérente.
Je suppose que l’on pourrait aller un peu plus loin et déclarer que, parce qu’il est possible d’utiliser l’hybride de manière incohérente, l’approche est donc intrinsèquement incohérente, mais cela semble aller plus loin dans les aspects philosophiques, ce à quoi je ne me considère même pas qualifié. offrir un avis sur.
Chapeau à Michael Lew. Son article de 2006 m'a aidé à comprendre ces problèmes mieux que toute autre ressource.
la source