L ’« hybride »entre les approches de Fisher et de Neyman-Pearson en matière de test statistique est-il vraiment un« méli-mélo incohérent »?

56

Il existe une certaine école de pensée selon laquelle l'approche la plus répandue du test statistique est un "hybride" entre deux approches: celle de Fisher et celle de Neyman-Pearson; La revendication affirme que ces deux approches sont "incompatibles" et que, par conséquent, "hybride" est un "méli-mélo incohérent". Je fournirai une bibliographie et quelques citations ci-dessous, mais pour l’instant, il suffit de dire que l’article sur les tests d’hypothèses statistiques contient de nombreuses informations à ce sujet . Ici sur CV, ce point a été répété à plusieurs reprises par @Michael Lew (voir ici et ici ).

Ma question est la suivante: pourquoi les approches F et NP sont-elles considérées comme incompatibles et pourquoi l'hybride est-il prétendu incohérent? Notez que j'ai lu au moins six articles anti-hybrides (voir ci-dessous), mais que je ne comprends toujours pas le problème ou l'argument. Notez également que je ne suggère pas de débattre si F ou NP est une meilleure approche; Je ne propose pas non plus de discuter de cadres fréquentistes ou bayésiens. Au lieu de cela, la question est la suivante: en acceptant que F et NP soient des approches valables et significatives, qu’en est-il de leur comportement hybride?

Voici comment je comprends la situation. L'approche de Fisher consiste à calculer la valeur et à la prendre comme une preuve contre l'hypothèse nulle. Plus le petit , plus la preuve est convaincante. Le chercheur est censé combiner ces preuves avec ses connaissances de base, décider si elles sont suffisamment convaincantes et procéder en conséquence. (Notez que les points de vue de Fisher ont changé au fil des ans, mais c'est ce vers quoi il semble avoir finalement convergé.) En revanche, l'approche de Neyman-Pearson consiste à choisir avance et à vérifier ensuite si $p$ $p$ $\alpha$ $p\le\alpha$ ; si tel est le cas, appelez-le significatif et rejetez l'hypothèse nulle (j'omets ici une grande partie de l'histoire de NP qui n'a aucune pertinence pour la discussion en cours). Voir aussi une excellente réponse de @gung dans Quand utiliser les frameworks Fisher et Neyman-Pearson?

L'approche hybride consiste à calculer la valeur , à la signaler (en supposant implicitement que le plus petit est le meilleur) et à appeler les résultats significatifs si (généralement ) et non significatifs dans le cas contraire. Ceci est supposé être incohérent. Comment peut-il être invalide de faire deux choses valides simultanément, me bat. $p$ $p\le\alpha$ $\alpha=0.05$

Comme particulièrement incohérente la vue anti-hybrideurs la pratique généralisée des rapports -values comme , ou (ou même ), où toujours l'inégalité la plus forte est choisie. L’argument semble être que (a) la force de la preuve ne peut pas être correctement évaluée, car exact n’est pas rapporté, et (b) les gens ont tendance à interpréter le nombre de droite dans l’inégalité comme et à le considérer comme un taux d’erreur de type I et c'est faux. Je ne vois pas un gros problème ici. Tout d'abord, en rapportant exactement $p$ $p<0.05$ $p<0.01$ $p<0.001$ $p\ll0.0001$ $p$ $\alpha$ $p$ C’est certainement une meilleure pratique, mais personne ne se soucie vraiment de si est par exemple ou , donc l’arrondir sur une échelle logarithmique n’est pas si mauvais (et aller au-dessous de n’a aucun sens de toute façon, voir Comment faut-il signaler de très petites valeurs p ? ) Deuxièmement, si le consensus est d'appeler tout ce qui est inférieur à significatif, alors le taux d'erreur sera et , comme l'explique @gung dans Interprétation de la valeur p dans les tests d'hypothèses. $p$ $0.02$ $0.03$ $\sim 0.0001$ $0.05$ $\alpha=0.05$ $p \ne \alpha$ . Même s'il s'agit d'un problème potentiellement déroutant, cela ne me semble pas plus déroutant que d'autres problèmes liés aux tests statistiques (en dehors de l'hybride). En outre, chaque lecteur peut avoir à l'esprit son propre préféré lors de la lecture d'un document hybride, et son propre taux d'erreur en conséquence. Alors, quel est le problème? $\alpha$

L'une des raisons pour lesquelles je veux poser cette question est qu'il est vraiment pénible de voir combien de l'article de Wikipédia sur les tests d'hypothèses statistiques est consacré à la lambasting hybride. Après Halpin & Stam, il affirme qu’un certain Lindquist est à blâmer (il existe même un grand scan de son manuel avec des "erreurs" surlignées en jaune), et bien sûr l’article du wiki sur Lindquist lui-même commence par la même accusation. Mais alors, peut-être me manque quelque chose.

Références

Gigerenzer, 1993, Le Surmoi, le Moi et l'Id dans le raisonnement statistique - a introduit le terme "hybride" et l'a appelé "méli-mélo incohérent"
- Voir aussi les expositions plus récentes de Gigerenzer et al.: Par exemple, Mindless Statistics (2004) et The Null Ritual. Ce que vous avez toujours voulu savoir sur le test d'importance sans jamais oser le demander (2004).
$p<.05$
Goodman, 1999, Vers des statistiques médicales fondées sur des preuves. 1: L'erreur sophistique
$p$ $\alpha$
Halpin & Stam, 2006, Inférence inductive ou comportement inductif: approches de Fisher et Neyman-Pearson concernant les tests statistiques en recherche psychologique (1940-1960) [gratuit après inscription] - reproche au manuel de Lindquist, 1940, d'avoir introduit l'approche "hybride"
@Michael Lew, 2006, Mauvaise pratique statistique en pharmacologie (et dans d'autres disciplines biomédicales de base): vous ne connaissez probablement pas P - une belle revue et vue d'ensemble

Citations

Gigerenzer: Ce qui est devenu institutionnalisé en tant que statistique inférentielle en psychologie n'est pas une statistique de pêcheur. C'est un méli-mélo incohérent de certaines des idées de Fisher, d'une part, et de celles de Neyman et de ES Pearson, de l'autre. Je fais référence à ce mélange en tant que "logique hybride" de l'inférence statistique.

Goodman: L’approche de test d’hypothèse [Neyman-Pearson] offrait aux scientifiques un marché faustien - un moyen apparemment automatique de limiter le nombre de conclusions erronées à long terme, mais uniquement en abandonnant la capacité de mesurer les preuves [à la Fisher] et d’évaluer la vérité d'une seule expérience.

$p$ $\alpha$ $p$ avec le test d'hypothèse de Neyman-Pearson dans lequel il est devenu intégré. [...] Par exemple, Gibbons et Pratt [...] ont déclaré à tort: "Le fait de déclarer une valeur P, qu'elle soit exacte ou dans un intervalle, permet en effet à chaque individu de choisir son propre niveau d'importance comme probabilité maximale tolérable. d'une erreur de type I. "

Halpin & Stam: Le texte de Lindquist datant de 1940 était une source originale de l'hybridation des approches Fisher et Neyman-Pearson. [...] plutôt que de s'en tenir à une interprétation particulière des tests statistiques, les psychologues sont restés ambivalents, voire méconnus, des difficultés conceptuelles soulevées par la controverse Fisher et Neyman-Pearson.

Lew: Ce que nous avons est une approche hybride qui ne contrôle ni les taux d'erreur ni l'évaluation de la force de la preuve.

hypothesis-testing statistical-significance p-value type-i-and-ii-errors history l'amibe dit de réintégrer Monica
la source

+1 pour cette question bien documentée (même si longue). Je pense que cela aiderait peut-être à continuer de préciser ce qui prête à confusion. Suffit-il de savoir que, pour Fisher, il n’existe aucune hypothèse alternative alors que pour NP, le monde des possibilités s’épuise à la fois entre null et alternative? Cela me semble assez incohérent, mais hélas, je fais tout le temps la chose hybride parce que vous ne pouvez pas l'éviter, tant elle est enracinée.

Momo

2

H_{0} : μ = 0

$H_0: \mu=0$

H_{1} : μ \neq 0

$H_1: \mu \ne 0$

2

Venant juste de lire Lew (et réalisant que je l'avais déjà lu, probablement vers 2006), je l'ai trouvé assez bon, mais je ne pense pas que cela représente la façon dont j'utilise les p-values. Mes niveaux de signification - dans les rares cas où j’utilise des tests d’hypothèses * - sont toujours à l’avant, et lorsque j’ai un contrôle quelconque sur la taille de l’échantillon, après avoir pris en compte la puissance, pris en compte le coût des deux types d’erreur, etc. - essentiellement Neyman-Pearson. Je cite toujours les valeurs p, mais pas dans le cadre de l'approche de Fisher .... (suite)

Glen_b

2

(ctd) ... * (Je détourne souvent les gens des tests d'hypothèses - leurs questions sont souvent liées à la mesure des effets et sont mieux résolues par la construction d'intervalles). Le problème spécifique que Lew a soulevé pour la procédure «hybride» s'applique à quelque chose que je ne fais pas et aurait tendance à mettre les gens en garde. S'il y a des gens qui font vraiment le mélange d'approches qu'il suggère, le papier semble bien. La discussion antérieure sur la signification des valeurs prédictives et l'historique des approches semble excellente.

Glen_b

1

@Glen_b, l'historique de Lew est très clair et net, je suis entièrement d'accord. Mon problème concerne spécifiquement le problème hybride (section "Quelle approche est la plus utilisée?"). Certes , il y a des gens qui font ce qu'il décrit là - bas, à savoir des rapports les plus forts de p <0,001, <.01, ou <.05; Je le vois tout le temps dans les neurosciences. Prenons l’un des cas où vous utilisez des tests. Vous choisissez, par exemple, alpha = 0,05, et suivez le cadre NP. Lorsque vous obtenez p = .00011, votre certitude à propos de H1 et votre choix de libellé seront-ils différents de ceux auxquels vous obtiendriez p = .049? Si c'est le cas, c'est hybride! Si non, comment ça se fait?

amibe dit de réintégrer Monica

16

Je crois que les articles, articles, articles, etc. que vous avez rassemblés avec diligence contiennent suffisamment d’informations et d’analyses pour savoir où et pourquoi les deux approches sont différentes. Mais être différent ne signifie pas être incompatible .

Le problème avec "hybride" est qu’il s’agit d’un hybride et non d’une synthèse , raison pour laquelle il est considéré par beaucoup comme un hybris , si vous excusez le jeu de mots.
N’étant pas une synthèse, il ne tente pas de combiner les différences entre les deux approches, ni de créer une approche unifiée et cohérente en interne, ni de conserver les deux approches dans l’arsenal scientifique comme alternatives complémentaires, afin de traiter plus efficacement le très complexe monde nous essayons d’analyser à travers les statistiques (heureusement, cette dernière chose est ce qui semble se passer avec l’autre grande guerre civile du champ, celle des fréquents-bayésiens).

Le mécontentement à son égard découle du fait qu’il a effectivement créé un malentendu lors de l’ application des outils statistiques et de l’ interprétation des résultats statistiques , principalement par des scientifiques qui ne sont pas des statisticiens , qui peut avoir des effets très graves et dommageables (réflexion sur le terrain). la médecine aide à donner à la question son ton dramatique approprié). Je pense que cette mauvaise application est largement acceptée comme un fait et, en ce sens, le point de vue "anti-hybride" peut être considéré comme généralisé (du moins en raison de ses conséquences, sinon pour ses problèmes méthodologiques).

$p$

Je crois que l’hybride a émergé de la prise de conscience qu’il n’existait pas de réponse aussi simple et qu’il existait des phénomènes réels dans lesquels l’une des méthodes était plus adaptée que l’autre (voir cet article pour un tel exemple, selon moi à moins, où l’approche des pêcheurs semble plus appropriée). Mais au lieu de garder les deux "séparés et prêts à agir", ils ont été superposés de manière assez superficielle.

Je propose une source qui résume cette approche "alternative complémentaire": Spanos, A. (1999). Théorie des probabilités et inférence statistique: modélisation économétrique à l'aide de données d'observation. La presse de l'Universite de Cambridge. , ch. 14 , en particulier la section 14.5, où, après avoir présenté formellement et distinctement les deux approches, l'auteur est en mesure d'indiquer clairement leurs différences et de soutenir qu'elles peuvent être considérées comme des alternatives complémentaires.

Alecos Papadopoulos
la source

6

p

$p$

α

$\alpha$

6

p - α

$p-\alpha$

6

CONTD Pour moi, il s’agit de l’approche hybride qui consiste à «avoir son gâteau et à le manger aussi». Par exemple, une approche NP sans calculs de test de puissance devrait être impensable, mais nous voyons tout le temps le test posé dans le cadre NP, mais aucune mention ne concerne les calculs de puissance.

Alecos Papadopoulos

Hors sujet, mais ... Puisque vous citez Aris Spanos, je me demande si vous seriez capable de répondre à cette question sur sa méthodologie? (J'ai une fois posé la question à Aris Spanos directement, et il a gentiment fait quelques efforts pour y répondre. Malheureusement, sa réponse était dans la même langue que ses papiers, donc elle ne m'a pas beaucoup aidée.)

Richard Hardy

13

Ma propre réponse à ma question est qu’il n’ya rien de particulièrement incohérent dans l’approche hybride (c’est-à-dire acceptée). Mais comme je ne savais pas si je n'arrivais peut-être pas à comprendre la validité des arguments présentés dans les documents anti-hybrides, j'ai été heureux de trouver la discussion publiée avec ce document:

Hubbard & Bayarri, 2003, Confusion sur les mesures de preuves (p) par rapport aux erreurs (α) dans les tests statistiques classiques

Malheureusement, deux réponses publiées sous forme de discussion n'ont pas été présentées sous forme d'articles distincts et ne peuvent donc pas être citées correctement. Néanmoins, je voudrais citer l'un et l'autre:

Berk: Le thème des sections 2 et 3 semble être que Fisher n'aimait pas ce que Neyman et Pearson ont fait, et Neyman n'a pas aimé ce que Fisher a fait. Par conséquent, nous ne devrions rien faire qui combine les deux approches. Ici, on ne peut échapper au principe, mais le raisonnement m’échappe.

Carlton:Les auteurs insistent avec acharnement sur le fait que la confusion découle en grande partie du mariage des idées de Fisherian et de Neyman-Pearsonian, qu’un tel mariage est une erreur catastrophique de la part des statisticiens modernes [...]. Les erreurs de type I ne peuvent pas coexister dans le même univers. Il est difficile de savoir si les auteurs ont donné une raison de fond pour laquelle nous ne pouvons pas prononcer "valeur p" et "erreur de type I" dans la même phrase. [...] Le "fait" de leur incompatibilité [F et NP] est une nouvelle surprenante pour moi, comme pour les milliers de statisticiens qualifiés qui lisent l'article. Les auteurs semblent même suggérer que parmi les raisons pour lesquelles les statisticiens devraient maintenant divorcer de ces deux idées est que Fisher et Neyman ne s'aiment pas trop (l'un l'autre). s philosophies sur les tests). J'ai toujours considéré notre pratique actuelle, qui intègre les philosophies de Fisher et de Neyman et permet de discuter des valeurs de P et des erreurs de type I - bien que ce ne soit certainement pas en parallèle - comme l'un des plus grands triomphes de notre discipline.

Les deux réponses méritent d'être lues. Il y a aussi une réplique des auteurs originaux, qui ne me semble pas convaincante du tout .

l'amibe dit de réintégrer Monica
la source

1

Coexister est une chose, mais en faire une autre. Mais en réalité, cette approche anti-hybride s'inscrit dans l'esprit de "il ne peut y avoir aucune synthèse", ce avec quoi je suis tout à fait en désaccord. Mais je ne vois pas l'hybride actuel comme un mariage réussi .

Alecos Papadopoulos

2

@Livid, merci pour vos commentaires, c'est intéressant, mais je voudrais m'abstenir de plus amples discussions ici. Je vous encourage plutôt à poster une nouvelle réponse, si vous le souhaitez. Mais si vous décidez de le faire, essayez de vous concentrer sur le problème principal, à savoir: qu'est-ce qui ne va pas avec "hybride" par rapport à Fisher et à NP seuls. Vous semblez détester toute l'approche des tests de signification, "l'hypothèse nulle", etc., mais ce n'est pas le propos de cette question!

amibe dit de réintégrer Monica

1

@Livid: Hmmm, pouvez-vous réellement préciser pourquoi vous dites que c'est une caractéristique distinctive de l'hybride? Que serait le nul en pur Fisher ou en NP pur? Supposons que vous avez deux groupes et que vous souhaitez tester une différence significative ("null null"). Ne peut-on pas aborder cette situation avec les trois approches: pure Fisher, pure NP et hybride?

amibe dit de réintégrer Monica

2

@Livid, je comprends vos arguments contre le null null, je pense simplement que cette question est orthogonale à celle des hybrides. Je dois rafraîchir les mémoires anti-hybrides en mémoire, mais autant que je m'en souvienne, leur critique de l'hybride n'est pas du tout centrée sur le néant nul. Au lieu de cela, il s'agit de combiner Fisher et NP. Encore une fois, si vous n'êtes pas d'accord avec cela, veuillez envisager de poster une réponse. pour le moment, on en reste là.

amibe dit de réintégrer Monica le

2

Une note pour moi: je devrais incorporer dans cette réponse quelques citations de cet article: Lehmann 1992, The Fisher, Théories de Fisher, Neyman-Pearson sur la vérification des hypothèses: une théorie ou deux?

Amibe dit: Réintégrer Monica le

8

Je crains qu'une réponse réelle à cette excellente question ne nécessite un texte intégral. Cependant, voici quelques points qui ne figurent ni dans la question ni dans les réponses actuelles.

Le taux d'erreur "appartient" à la procédure mais la preuve "appartient" aux résultats expérimentaux. Ainsi, il est possible avec des procédures à plusieurs étapes avec des règles d’arrêt séquentielles d’obtenir un résultat avec des preuves très solides contre l’hypothèse nulle mais un résultat de test d’hypothèse non significatif. Cela peut être considéré comme une incompatibilité forte.
Si vous êtes intéressé par les incompatibilités, vous devriez vous intéresser aux philosophies sous-jacentes. La difficulté philosophique vient du choix entre le respect du principe de vraisemblance et le respect du principe de l'échantillonnage répété. Le scénario dit en gros que, dans le cas d’un modèle statistique, les preuves d’un ensemble de données correspondant au paramètre considéré sont entièrement contenues dans la fonction de vraisemblance pertinente. Le RSP dit qu'il faut préférer les tests qui donnent des taux d'erreur à long terme égaux à leurs valeurs nominales.

Michael Lew
la source

3

La monographie de JO Berger et RL Wolpert "Le principe de vraisemblance" (2 e éd. 1988) est un exposé calme, équilibré et positif du point 2., à mon avis.

Alecos Papadopoulos

5

Berger et Wolpert est en effet une bonne exposition, qui fait également autorité. Cependant, je préfère le livre "Probibility", plus pratique et moins mathématique, de AWF Edwards. Toujours en version imprimée, je pense. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ

Michael Lew

2

@MichaelLew a expliqué qu'une utilisation valide des valeurs p est un résumé de la taille de l'effet. Il a fait du bon travail en écrivant cet article: arxiv.org/abs/1311.0081

Livid

@Livid Le document est intéressant, mais pour le nouveau lecteur, il convient de noter ce qui suit: l'idée principale, à savoir que p valeurs 'index' (probablement: sont dans une relation à un avec des) fonctions de vraisemblance, est généralement comprise comme fausse, car il existe des cas où la même probabilité correspond à différentes valeurs de p en fonction du schéma d'échantillonnage. Cette question est un peu discutée dans le journal, mais l'indexation est une position très inhabituelle (ce qui ne la rend pas nécessairement fausse, bien sûr).

conjugateprior

8

Une union souvent vue (et supposée acceptée) (ou mieux: "hybride") entre les deux approches est la suivante:

$\alpha$
$H_o: \mu = 0$ $H_1: \mu \ne 0$
$\alpha$

$\alpha$
- $H_o$
- $H_o$ $H_1$
- $100\% \cdot (1-\alpha)$ $H_1$
Si la valeur de p n'est pas assez petite, vous diriez
- $H_o$
- $H_o$ $H_1$

Ici, les aspects de Neyman-Pearson sont:

Vous décidez quelque chose
$H_o$
Vous connaissez le taux d'erreur de type I

Les aspects liés à la pêche sont:

Vous énoncez la valeur p. Tout lecteur a ainsi la possibilité d’utiliser son propre niveau (par exemple, corriger strictement pour des tests multiples) pour la décision
Fondamentalement, seule l'hypothèse nulle est requise car l'alternative est au contraire
$\mu \ne 0$

AJOUTER

Bien qu'il soit bon de prendre connaissance de la discussion sur les problèmes philosophiques de Fisher's, des NP ou de cette approche hybride (comme l'enseignent certaines personnes en frénésie religieuse), il existe beaucoup plus de problèmes pertinents en matière de statistiques à combattre:

Poser des questions non informatives (comme des questions binaires oui / non au lieu de questions quantitatives, à savoir utiliser des tests plutôt que des intervalles de confiance)
Méthodes d'analyse basées sur les données qui conduisent à des résultats biaisés (régression progressive, hypothèses de test, etc.)
Choisir de mauvais tests ou méthodes
Mauvaise interprétation des résultats
Utilisation de statistiques classiques pour des échantillons non aléatoires

Michael M
la source

1

(+1) Ceci est une bonne description de l'hybride (et pourquoi c'est exactement un hybride), mais vous n'avez pas explicitement dit quelle en était l'évaluation. Convenez-vous que ce que vous avez décrit est un "méli-mélo incohérent"? Si oui, pourquoi? Ou pensez-vous que c'est une procédure raisonnable? Dans l'affirmative, les personnes qui prétendent que cela est incohérent ont-elles un sens ou ont-elles simplement tort?

amibe dit de réintégrer Monica

1

α

$\alpha$

4

En acceptant que F et NP soient des approches valables et significatives, qu’en est-il de leur hybride?

Réponse courte: utilisation d'une hypothèse nulle nulle (sans différence, sans corrélation), quel que soit le contexte. Tout le reste est un "abus" par des personnes qui se sont créé des mythes sur les résultats possibles du processus. Les mythes découlent du fait que des personnes tentent de concilier leur utilisation (parfois appropriée) de la confiance en l'autorité et des heuristiques consensuelles avec l'inapplicabilité de la procédure à leur problème.

Autant que je sache, Gerd Gigerenzer a proposé le terme "hybride":

J'ai demandé à l'auteur [un auteur distingué de manuel statistique, dont le livre a été publié de nombreuses éditions et dont le nom importe peu] pourquoi il a supprimé le chapitre sur Bayes ainsi que la phrase innocente de toutes les éditions suivantes. «Qu'est-ce qui vous a amené à présenter des statistiques comme s'il ne disposait que d'un seul marteau, plutôt que d'une boîte à outils? Pourquoi avez-vous mélangé les théories de Fisher et de Neyman – Pearson dans un hybride incohérent que tout statisticien décent refuserait?

À son crédit, je dois dire que l'auteur n'a pas tenté de nier qu'il avait créé l'illusion qu'il n'y a qu'un seul outil. Mais il m'a fait savoir qui était à blâmer pour cela. Il y avait trois coupables: ses collègues chercheurs, l'administration de l'université et son éditeur. La plupart des chercheurs, a-t-il soutenu, ne s'intéressent pas vraiment à la pensée statistique, mais uniquement à la publication de leurs articles [...]

Le rituel nul:

Établissez une hypothèse nulle statistique de «pas de différence moyenne» ou de «corrélation nulle». Ne spécifiez pas les prédictions de votre hypothèse de recherche ou de toute autre hypothèse de fond alternative.

$p < 0.05$ $p < 0.01$ $p < 0.001$ $p$

Toujours effectuer cette procédure.

Gigerenzer, G (novembre 2004). " Statistiques stupides ". The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.

Edit: Et nous devrions toujours mentionner, parce que "l'hybride" est tellement glissant et mal défini, que l'utilisation de la valeur null null pour obtenir une valeur p est tout à fait correcte pour comparer les tailles d'effet avec différentes tailles d'échantillons. C'est l'aspect "test" qui introduit le problème.

Edit 2: @amoeba Une valeur p peut être considérée comme une statistique récapitulative. Dans ce cas, l'hypothèse Null null n'est qu'un repère arbitraire: http://arxiv.org/abs/1311.0081 . Cependant, dès que vous commencez à essayer de tirer une conclusion ou à prendre une décision (c'est-à-dire "tester" l'hypothèse nulle), cela n'a plus de sens. Dans l’exemple comparatif de deux groupes, nous voulons savoir en quoi ces deux groupes sont différents et quelles sont les différentes explications possibles des différences de cette ampleur et de ce type.

La valeur p peut être utilisée sous forme de statistique récapitulative nous indiquant l'ampleur de la différence. Cependant, l’utiliser pour "réfuter / rejeter" la différence zéro ne sert à rien. De plus, je pense que beaucoup de ces études comparant les mesures moyennes des êtres vivants à un moment donné sont erronées. Nous devrions observer comment les instances individuelles du système changent au fil du temps, puis mettre au point un processus expliquant le schéma observé (y compris les différences éventuelles entre les groupes).

Livide
la source

2

+1, merci pour votre réponse et pour le lien. Il semble que je n’ai pas lu ce document en particulier, je vais y jeter un coup d’œil. Comme je l'ai déjà dit, j'avais l'impression que "nil null" est une question orthogonale à la question "hybride", mais je suppose que je devrais relire les écrits de Gigerenzer pour vérifier cela. Je vais essayer de trouver du temps dans les jours suivants. En dehors de cela: pourriez-vous clarifier votre dernier paragraphe ("modifier")? Ai-je bien compris que vous vouliez dire qu'avoir une valeur null nulle lorsque l'on compare deux tailles d'effet est correct, mais avoir une valeur nulle lorsque l'on compare une taille d'effet à zéro n'est pas correct?

amibe dit de réintégrer Monica

1

Je vois que ceux qui ont plus d'expertise que moi ont fourni des réponses, mais je pense que ma réponse a le potentiel d'ajouter quelque chose de plus, alors je vais l'offrir comme point de vue d'un autre profane.

L'approche hybride est-elle incohérente? Je dirais que cela dépend si le chercheur finit par agir de manière incohérente avec les règles avec lesquelles il a commencé: en particulier la règle oui / non qui entre en jeu avec la définition d'une valeur alpha.

Incohérent

Commencez avec Neyman-Pearson. Le chercheur définit alpha = 0,05, lance l’expérience, calcule p = 0,052. Le chercheur examine cette valeur p et, à l’aide de l’inférence de Fisher (souvent implicitement), considère le résultat comme étant suffisamment incompatible avec l’hypothèse de test voulant qu’il va toujours prétendre que quelque chose se passe. Le résultat est en quelque sorte "assez bon" même si la valeur p était supérieure à la valeur alpha. Cela est souvent associé à des termes tels que "presque significatif" ou "tendant vers une signification" ou à une formulation allant dans ce sens.

Cependant, définir une valeur alpha avant de lancer l’expérience signifie que l’on a choisi l’approche du comportement inductif de Neyman-Pearson. Le choix d'ignorer cette valeur alpha après le calcul de la valeur p, et donc de prétendre que quelque chose est toujours intéressant, compromet toute l'approche par laquelle on a commencé. Si un chercheur commence par le sentier A (Neyman-Pearson), puis saute sur un autre sentier (Fisher) une fois qu'il n'aime pas le sentier sur lequel il se trouve, je le considère comme incohérent. Ils ne sont pas compatibles avec les règles (implicites) avec lesquelles ils ont commencé.

Cohérent (éventuellement)

Commencez avec NP. Le chercheur définit alpha = 0,05, lance l’expérience, calcule p = 0,0014. Le chercheur observe que p <alpha et rejette donc l'hypothèse de test (généralement aucun effet nul) et accepte l'hypothèse alternative (l'effet est réel). À ce stade, le chercheur, en plus de décider de traiter le résultat comme un effet réel (NP), décide d’inférer (Fisher) que l’expérience fournit une preuve très forte que l’effet est réel. Ils ont ajouté de la nuance à l’approche de départ, mais n’ont pas contredit les règles établies en choisissant une valeur alpha au début.

Sommaire

Si on commence par choisir une valeur alpha, alors on a décidé de suivre le chemin de Neyman-Pearson et de suivre les règles pour cette approche. Si, à un moment donné, ils enfreignent ces règles en invoquant l'inférence de Fisher, ils ont alors agi de manière incohérente ou incohérente.

Je suppose que l’on pourrait aller un peu plus loin et déclarer que, parce qu’il est possible d’utiliser l’hybride de manière incohérente, l’approche est donc intrinsèquement incohérente, mais cela semble aller plus loin dans les aspects philosophiques, ce à quoi je ne me considère même pas qualifié. offrir un avis sur.

Chapeau à Michael Lew. Son article de 2006 m'a aidé à comprendre ces problèmes mieux que toute autre ressource.

MichiganWater
la source

L ’« hybride »entre les approches de Fisher et de Neyman-Pearson en matière de test statistique est-il vraiment un« méli-mélo incohérent »?

Références

Citations

Réponses:

Incohérent

Cohérent (éventuellement)

Sommaire