Compte tenu de la puissance des ordinateurs de nos jours, n'y a-t-il jamais une raison de faire un test du chi-carré plutôt que le test exact de Fisher?

86

Étant donné que le logiciel peut maintenant calculer le test exact de Fisher si facilement de nos jours , existe-t-il des circonstances dans lesquelles, théoriquement ou pratiquement, le test du khi-carré est réellement préférable au test exact de Fisher?

Les avantages du test exact de Fisher incluent:

  • mise à l'échelle pour des tables de contingence supérieures à 2x2 (c'est-à-dire n'importe quelle table r x c )
  • donne une valeur p exacte
  • ne pas avoir besoin d'avoir un nombre de cellules minimum attendu pour être valide
pmgjones
la source
10
Parce que ce sont de bons vieux classiques. Bientôt, il deviendra un millésime exquis. Par la suite, quand les gens se lèveront contre les ordinateurs, ils vivront leur deuxième jeunesse.
ttnphns
7
Avez-vous déjà essayé de calculer la statistique exacte du test de Fisher sur une grande table? (Cela prend trop de temps ...)
whuber
22
En plus des bons commentaires et réponses que vous avez déjà obtenus, je pense que la meilleure question est "Compte tenu de la puissance des ordinateurs, pourquoi ne pas faire de tests de simulation / permutation tout le temps?".
Peter Flom - Réintégrer Monica
1
@whuber J'ai réalisé une implémentation (propriétaire) sans (grand nombre de) tables, en C ++. Il exécute des milliers de valeurs P pour des nombres allant jusqu'à 8 chiffres en secondes.
Michel de Ruiter le
1
@ Michel I voulait dire le nombre total de cellules dans le tableau. Le calcul est facile pour les tables 2 x 2, mais à mesure que les tables grossissent, les calculs deviennent lourds.
whuber

Réponses:

61

χ2

χ2PN1N


De R-help, 2009 :

Tests de Campbell, I. Chi-carré et Fisher-Irwin sur des tables deux par deux avec des recommandations de petit échantillon. Statistiques en médecine 2007; 26 : 3661-3675. ( résumé )

  • ... la dernière édition du livre d'Armitage recommande que les ajustements de continuité ne soient jamais utilisés pour les tests du khi-deux dans les tableaux de contingence;

  • Modification E. Pearson du test du chi-carré de Pearson, différant de l'original d'un facteur (N-1) / N;

  • Cochran a noté que le nombre 5 dans "fréquence attendue inférieure à 5" était arbitraire;

  • les résultats des études publiées peuvent être résumés comme suit , pour des essais comparatifs:

    1. Le test du chi-carré de Yate a des taux d'erreur de type I inférieurs à la valeur nominale, souvent inférieurs à la moitié de la valeur nominale;

    2. Le test Fisher-Irwin présente des taux d'erreur de type I inférieurs à la valeur nominale;

    3. La version de K Pearson du test du chi-carré a des taux d'erreur de type I plus proches du test nominal que le test du chi-carré de Yate et le test de Fisher-Irwin, mais dans certaines situations, les erreurs de type I sont sensiblement plus grandes que la valeur nominale;

    4. Le test du chi carré «N-1» se comporte comme la version «N» de K. Pearson, mais la tendance aux valeurs supérieures à la valeur nominale est réduite;

    5. Le test bilatéral Fisher-Irwin utilisant la règle d'Irwin est moins conservateur que la méthode qui double la probabilité unilatérale;

    6. Le test à mi-parcours de Fisher-Irwin, en doublant la probabilité unilatérale, donne de meilleurs résultats que les versions standard du test Fisher-Irwin, et la méthode des médiums selon la règle d'Irwin fonctionne encore mieux en ayant des erreurs de type I plus proches des niveaux nominaux. ";

  • soutien important pour le test «N-1» à condition que les fréquences attendues soient supérieures à 1;

  • défaut dans le test de Fisher fondé sur le postulat de Fisher selon lequel les totaux marginaux ne contiennent aucune information utile;

  • démonstration de leurs informations utiles dans des échantillons de très petite taille;

  • L'ajustement de la continuité de N / 2 par Yate constitue une correction excessive et est inapproprié;

  • des contre-arguments existent pour l'utilisation de tests de randomisation dans des essais randomisés;

  • calculs des pires cas;

  • recommandation générale : utilisez le test du chi-carré «N-1» lorsque toutes les fréquences attendues sont au moins égal à 1; sinon, utilisez le test de Fisher-Irwin selon la règle d'Irwin pour les tests bilatéraux, en prenant des tables de l'une ou de l'autre extrémité comme probables ou moins, comme cela observé; voir la lettre d'Antonio Andres au rédacteur en chef et la réponse de l'auteur en 27: 1791-1796; 2008.


Crans GG, Shuster JJ. À quel point le test exact de Fisher est-il conservateur? Une évaluation quantitative de l'essai binomial comparatif à deux échantillons. Statistiques en médecine 2008; 27 : 3598-3611. ( résumé )

  • ... premier article à vraiment quantifier le caractère prudent du test de Fisher;

  • "la taille de l’essai du FET était inférieure à 0,035 pour presque toutes les tailles d’échantillons avant 50 et n’approchait pas de 0,05 même pour des tailles d’échantillons supérieures à 100.";

  • conservativité des méthodes "exactes";

  • voir Stat in Med 28 : 173-179, 2009 pour une critique sans réponse


2×2

  • P

  • valeur des tests inconditionnels;

  • voir la lettre à l'éditeur 30: 890-891; 2011

Frank Harrell
la source
1
Pouvez-vous suggérer comment appliquer la correction (N-1) / N? Existe-t-il des calculatrices en ligne intégrant cette correction? Existe-t-il un moyen simple d’ajuster manuellement les résultats du test du khi-carré pour effectuer cette correction vous-même?
DW
L'une des références que j'ai énumérées ci-dessus est votre meilleur pari.
Frank Harrell
1
χ2 χ2
2
Étiqueter quelque chose comme "exact" ne le rend pas ainsi. Voir la merveilleuse explication ci-dessous de @suncoolsu que vous devez avoir manquée (vous avez également manqué toutes les explications ci-dessus). Le test de Pearson est encore plus précis que ce que pensait Pearson. Voir citeulike.org/user/harrelfe/article/13265687 et citeulike.org/user/harrelfe/article/13263676 par exemple. Le test "exact" de Fisher n’est exact que dans le sens où la véritable erreur de type I n’est pas plus grande que ce qui est affirmé. Mais comme il s’avère plus petit que ce qu’on prétend, l’erreur de type II est plus élevée, ce qui signifie moins de puissance.
Frank Harrell
Je connais le sens de l'exactitude. Le point précis que je n'aime pas avec les tests non exacts est la possibilité que l'erreur de type I soit supérieure au niveau nominal. Mais vous avez raison, j'ai mal interprété votre réponse et l'autre (les deux sont excellentes)
Stéphane Laurent
47

c'est une excellente question.

Le test exact de Fisher est l'un des bons exemples de l'utilisation intelligente du plan expérimental par Fisher , ainsi que du conditionnement des données (essentiellement des tableaux avec les totaux des lignes observés et marginaux) et de son ingéniosité pour trouver des distributions de probabilité (bien que ce ne soit pas le meilleur exemple , pour un meilleur exemple, voir ici ). L'utilisation d'ordinateurs pour calculer des valeurs p "exactes" a certainement permis d'obtenir des réponses précises.

Cependant, il est difficile de justifier les hypothèses du test exact de Fisher dans la pratique. Parce que le prétendu "exact" vient du fait que dans "l'expérience de dégustation de thé" ou dans le cas des tableaux de contingence 2x2, le total des lignes et le total des colonnes, c'est-à-dire que les totaux marginaux sont fixés par conception. Cette hypothèse est rarement justifiée dans la pratique. Pour de bonnes références, voir ici .

Le nom "exact" amène à croire que les valeurs p données par ce test sont exactes, ce qui, malheureusement, est malheureusement toujours incorrect pour la plupart des cas, pour ces raisons.

  1. Si les marginaux ne sont pas fixés par conception (ce qui se produit presque chaque fois dans la pratique), les valeurs p seront conservatrices.
  2. Comme le test utilise une distribution de probabilité discrète (en particulier la distribution hyper-géométrique), il est impossible de calculer les "probabilités nuls exactes", c'est-à-dire la valeur p.

Dans la plupart des cas pratiques, l'utilisation d'un test du rapport de vraisemblance ou d'un test du chi carré ne devrait pas donner de réponses très différentes (valeur p) du test exact de Fisher. Oui, lorsque les marginaux sont fixes, le test exact de Fisher est un meilleur choix, mais cela se produira rarement. Par conséquent, l'utilisation du test du chi carré du test du rapport de vraisemblance est toujours recommandée pour les contrôles de cohérence.

Des idées similaires s’appliquent lorsque le test exact de Fisher est généralisé à n’importe quel tableau, ce qui revient en gros à calculer des prédictions hypergéométriques à plusieurs variables. Par conséquent, il faut toujours essayer de calculer les valeurs de p basées sur la distribution du rapport de probabilité et de chi carré, en plus des valeurs de p "exactes".

suncoolsu
la source