Dans mon travail, j'ai vu plusieurs utilisations du test exact de Fisher, et je me demandais dans quelle mesure il correspond à mes données. En regardant plusieurs sources, j'ai compris comment calculer la statistique, mais je n'ai jamais vu d'explication claire et formelle de l'hypothèse nulle supposée.
Quelqu'un peut-il expliquer ou me renvoyer à une explication formelle de la distribution supposée? Sera reconnaissant pour une explication en termes de valeurs dans le tableau de contingence.
Réponses:
Dans le cas , l'hypothèse de distribution est donnée par deux variables aléatoires binomiales indépendantes et . L'hypothèse nulle est l'égalité . Mais le test exact de Fisher est un test conditionnel: il repose sur la distribution conditionnelle de étant donné . Cette distribution est une distribution hypergéométrique avec un paramètre inconnu: le rapport de cotes , puis l'hypothèse nulle est .2×2 X1∼Bin(n1,θ1) X2∼Bin(n2,θ2) θ1=θ2 X1 X1+X2 ψ=θ11−θ1θ21−θ2 ψ=1
Cette distribution a sa page Wikipedia .
Pour l'évaluer avec R, vous pouvez simplement utiliser la formule définissant la probabilité conditionnelle:
Ou utilisez la
dnoncenhypergeom
fonction duMCMCpack
package:la source
Le soi-disant test «exact» de Fisher fait le même genre d'hypothèses subtiles que les tests .χ2
Le test de Fisher fait une hypothèse qui n'est pas faite par des tests d'association inconditionnels tels que le Pearson : que nous nous intéressons à la distribution marginale "actuelle" de et , c'est-à-dire que nous conditionnons sur les fréquences du catégories de résultats. Ce n'est pas raisonnable pour les études prospectives. L'utilisation du test de Fisher conduit au conservatisme. Ses valeurs sont en moyenne trop grandes, car le test garantit que les valeurs ne sont pas trop petites. En moyenne, les valeurs de Pearson sont plus précises que celles de Fisher, même avec des fréquences attendues bien inférieures à 5 dans certaines cellules.χ2 X Y Y P P χ2 P
la source