Dans la célèbre expérience de Fisher, le nombre observable de coupes corrigées ayant deux types de coupes et est observable . Habituellement, il est intéressant de calculer la région critique pour rejeter l'hypothèse nulle (la dame devine au hasard) compte tenu de la taille du test . Cela se fait facilement en utilisant la distribution hypergéométrique. De la même manière, je peux calculer la taille du test compte tenu de la région critique.A B α
Une autre question est: comment calculer la puissance du test, compte tenu d'une hypothèse alternative? Supposons par exemple que la dame soit capable de deviner correctement avec probabilité sur la seule tasse ( ). Quelle est la puissance du test, en supposant un nombre total de tasses égal à et un nombre total de tasses d'un type ? (Malheureusement) la dame sait .P ( devinez A | vrai A ) = P ( devinez B | vrai B ) = 0,9 N = 8 n = N / 2 = 4 n
Autrement dit: quelle est la distribution de (nombre de tasses correctes dans l'hypothèse alternative) si la dame sait qu'il y a tasses d'une même sorte?n
la source
Réponses:
Selon l'alternative, la dame ne devine pas au hasard, mais "ne pas deviner au hasard" couvre une infinité de situations différentes. Elle pourrait toujours deviner parfaitement ou elle pourrait faire très légèrement mieux que la devinette aléatoire ... et dans le cas général, il n'y a même pas une "échelle" à variable unique non aléatoire pour travailler (donc nous n'avons même pas de pouvoir à moins de restreindre les types de réponses non aléatoires qu'elle pourrait donner).
Donc, pour calculer une puissance, nous devons être très précis sur la façon dont elle est non aléatoire (et à quel point elle est non aléatoire de cette façon particulière).
On pourrait supposer, par exemple, qu'elle a une idée de combien chaque tasse a le goût comme le lait a été ajouté en premier - un indice de "lait d'abord" qui est une variable aléatoire sur qui a un une moyenne différente (plus élevée) lorsque le lait est ajouté en premier - par exemple, nous pouvons supposer que c'est dit normal ou logoistique, avec une moyenne et une variance ( est connu comme " précision ") lorsque le lait est ajouté en dernier et signifie et la variance lorsque le lait est ajouté en premier (en effet, une présomption plus simple mais plus restrictive pourrait être de définir, par exemple,(−∞,∞) μ0 σ2=1/ω2 ω2 μ1 σ2 μ1=−μ0=1 de sorte que tout est désormais fonction d'une variable, la précision). Donc, pour n'importe quelle valeur donnée de ces paramètres, nous pourrions calculer la probabilité qu'elle obtienne les 8 tasses correctes (que les quatre plus petites valeurs de "lait au lait" qu'elle éprouve soient associées aux quatre tasses de lait); si le calcul exact était trop difficile pour nous, nous pourrions le simuler avec la précision souhaitée. [Dans le cas où la non-aléatoire est présumée être fonction d'une seule variable, nous aurions une courbe de puissance - une valeur de puissance pour chaque valeur du paramètre.]
C'est un type spécifique de modèle sur la façon dont elle pourrait fonctionner "mieux que de façon aléatoire" avec laquelle nous pourrions spécifier des paramètres et obtenir une valeur de puissance.
On pourrait bien sûr supposer bien d'autres formes de non-aléatoire que celle-ci.
la source
La distribution du nombre correct de suppositions sous l'hypothèse alternative suit une distribution hypergéométrique non centrale , qui est paramétrée en termes de rapport de cotes, c'est-à-dire combien sont plus élevées les chances que la dame devine "le thé d'abord" lorsqu'elle est en en fait, le thé a été ajouté en premier, contrairement au moment où le lait a été ajouté en premier (ou l'inverse). Si le rapport de cotes est 1, alors nous obtenons la distribution hypergéométrique centrale.
Voyons si cela fonctionne. Je vais utiliser R à des fins d'illustration, en utilisant le
MCMCpack
package, qui a une fonctiondnoncenhypergeom()
pour calculer la densité d'une distribution hypergéométrique (non centrale). Il a des argumentsx
pour le bon nombre de suppositions (attention: ceci est le bon nombre de suppositions dans l' une des deux conditions, par exemple, lorsque le thé est vraiment ajouté en premier), des argumentsn1
,n2
etm1
pour trois des quatre marges, etpsi
pour le vrai rapport de cotes. Calculons la densité pourx
égale à 0 à 4 (avec toutes les marges égales à 4) lorsque le rapport de cotes réel est 1:Cela donne:
Donc, il y a 1,43% de chances que la dame fasse 8 suppositions correctes (c'est-à-dire qu'elle devine correctement les 4 tasses là où le thé a été ajouté en premier et donc qu'elle devine également correctement les 4 tasses où le lait a été ajouté en premier) sous l'hypothèse nulle. Il s'agit en fait de la quantité de preuves que Fisher a jugées suffisantes pour rejeter l'hypothèse nulle.
Les probabilités spécifiées dans la question peuvent être utilisées pour calculer le rapport de cotes, à savoir (c.-à-d. ). Quelles sont les chances maintenant que la dame devine correctement les 8 tasses (c'est-à-dire qu'elle devinera correctement les 4 tasses où le thé a été ajouté en premier et donc les 4 tasses correctement où le lait a été ajouté en premier)?cotes ( devinez A | vrai A ) / cotes ( devinez A | vrai B )(.90/(1−.90))/(.10/(1−.10))=81 odds(guessA|trueA)/odds(guessA|trueB)
Cela donne:
La puissance est donc d'environ 83%.
la source