Dans la célèbre expérience de dégustation de thé par RA Fisher, la dame est informée du nombre de tasses de lait d'abord / de thé d'abord (4 pour chacune des 8 tasses). Cela respecte l'hypothèse totale marginale fixe du test exact de Fisher.
J'imaginais faire ce test avec mon ami, mais la pensée m'a frappé. Si la dame peut vraiment faire la différence entre les tasses de lait d'abord et les tasses de thé d'abord, elle devrait être en mesure de déterminer les totaux marginaux des tasses de lait d'abord / thé d'abord ainsi que ceux qui sont lesquels.
Voici donc la question: quel test aurait pu être utilisé si RA Fisher n'avait pas informé la dame du nombre total de tasses de lait d'abord et de thé d'abord?
Réponses:
Certains diront que même si la deuxième marge n'est pas fixée par la conception, elle contient peu d'informations sur la capacité de la femme à discriminer (c'est-à-dire qu'elle est approximativement accessoire) et devrait être conditionnée. Le test inconditionnel exact (proposé pour la première fois par Barnard ) est plus compliqué car vous devez calculer la valeur p maximale sur toutes les valeurs possibles d'un paramètre de nuisance, à savoir la probabilité de Bernoulli commune sous l'hypothèse nulle. Plus récemment, il a été proposé de maximiser la valeur de p sur un intervalle de confiance pour le paramètre de nuisance: voir Berger (1996), «More Powerful Tests from Confidence Interval p Values», The American Statistician , 50 , 4; des tests exacts ayant la bonne taille peuvent être construits en utilisant cette idée.
Le test exact de Fisher se présente également comme un test de randomisation, au sens d'Edgington: une affectation aléatoire des traitements expérimentaux permet d'utiliser la distribution de la statistique de test sur les permutations de ces affectations pour tester l'hypothèse nulle. Dans cette approche, les déterminations de la dame sont considérées comme fixes (et les totaux marginaux des tasses de lait d'abord et de thé d'abord sont bien sûr conservés par permutation).
la source
Barnard::barnardw.test()
être utilisé ici? Quelle différence de complexité de calcul peut-on attendre dans la pratique?Exact
. Quant à la complexité de calcul, je ne sais pas - cela va dépendre de l'algorithme de maximisation utilisé.Aujourd'hui, j'ai lu les premiers chapitres de "The Design of Experiments" de RA Fisher, et l'un des paragraphes m'a fait prendre conscience de la faille fondamentale de ma question.
Autrement dit, même si la dame peut vraiment faire la différence entre les tasses de lait d'abord et de thé d'abord , je ne peux jamais prouver qu'elle a cette capacité "par une quantité limitée d'expérimentation". Pour cette raison, en tant qu'expérimentatrice, je devrais partir de l'hypothèse qu'elle n'a pas de capacité (hypothèse nulle) et essayer de désapprouver cela. Et la conception originale de l'expérience (test exact de Fisher) est une procédure suffisante, efficace et justifiable pour ce faire.
Voici l'extrait de "The Design of Experiments" de RA Fisher:
la source
Le test de Barnard est utilisé lorsque le paramètre de nuisance est inconnu sous l'hypothèse nulle.
Cependant, dans le test de dégustation de la femme, vous pourriez faire valoir que le paramètre de nuisance peut être fixé à 0,5 sous l'hypothèse nulle (la femme non informée a une probabilité de 50% de deviner correctement une tasse).
Ensuite, le nombre de suppositions correctes, dans l'hypothèse nulle, devient une distribution binomiale: deviner 8 tasses avec une probabilité de 50% pour chaque tasse.
Dans d'autres cas, vous ne pouvez pas avoir cette probabilité triviale de 50% pour l'hypothèse nulle. Et sans marges fixes, vous ne savez peut-être pas quelle devrait être cette probabilité. Dans ce cas, vous avez besoin du test de Barnard.
Même si vous effectuiez le test de Barnard sur le test de dégustation de thé pour femme, cela deviendrait de toute façon 50% (si le résultat est toutes les suppositions correctes) car le paramètre de nuisance avec la valeur p la plus élevée est 0,5 et entraînerait le test binomial trivial ( il s'agit en fait de la combinaison de deux tests binomiaux, l'un pour les quatre premières tasses de lait et l'autre pour les quatre premières tasses de thé).
Voici comment cela se passerait pour un résultat plus compliqué (si toutes les suppositions ne sont pas correctes, par exemple 2 contre 4), alors le décompte de ce qui est et de ce qui n'est pas extrême devient un peu plus difficile
(Notez également que le test de Barnard utilise, dans le cas d'un résultat 4-2 un paramètre de nuisance p = 0,686 dont vous pourriez dire qu'il n'est pas correct, la valeur de p pour une probabilité de 50% de répondre au `` thé d'abord '' serait de 0,08203125. Cela devient encore plus petit lorsque vous considérez une région différente, au lieu de celle basée sur les statistiques de Wald, bien que la définition de la région ne soit pas si facile )
la source