Tables de contingence: quels tests faire et quand?

17

Je voudrais voir une extension de cette discussion sur le débat séculaire du chi carré contre le test exact de Fisher, élargissant un peu la portée. Il existe de nombreux tests d'interactions dans une table de contingence, assez pour faire tourner la tête. J'espère avoir une explication sur le test que je devrais utiliser et quand, et bien sûr une explication sur la raison pour laquelle un test devrait être préféré à un autre.

Mon problème actuel est le cas classique , mais les réponses concernant une dimensionnalité plus élevée sont les bienvenues, tout comme les conseils pour la mise en œuvre des différentes solutions dans R, au moins, dans les cas où il n'est pas évident de savoir comment procéder.n×m

Ci-dessous, j'ai énuméré tous les tests que je connais; J'espère qu'en exposant mes erreurs, elles pourront être corrigées.

  • . L'ancienne veille. Il y a trois options principales ici:χ2

    • La correction intégrée dans R pour les tables 2x2: "une moitié est soustraite de toutes les différences ." Dois-je toujours faire ça?|OE|
    • " " χ 2 Test, je ne sais pas comment faire cela dans R.N1χ2
    • Simulation de Monte Carlo. Est-ce toujours le meilleur? Pourquoi R ne me donne-t-il pas df quand je fais ça?
  • Test exact de Fisher .

    • Traditionnellement conseillé lorsqu'une cellule devrait être <4, mais apparemment certains contestent ce conseil.
    • Est-ce que l'hypothèse (généralement fausse) que les marginaux sont fixes est vraiment le plus gros problème avec ce test?
  • Le test exact de Barnard

    • Un autre test exact, sauf que je n'en ai jamais entendu parler.
  • Régression de Poisson

    • Une chose qui m'embrouille toujours à propos de glms est exactement comment faire ces tests de signification, donc une aide serait appréciée. Est-il préférable de comparer les modèles imbriqués? Qu'en est-il d'un test de Wald pour un prédicteur particulier?
    • Dois-je vraiment toujours faire une régression de Poisson? Quelle est la différence pratique entre cela et un test ?χ2
JVMcDonnell
la source

Réponses:

13

C'est une bonne question, mais une grande. Je ne pense pas pouvoir fournir une réponse complète, mais je vais jeter un peu de matière à réflexion.

Tout d'abord, sous votre puce, la correction à laquelle vous faites référence est connue sous le nom de correction de Yates pour la continuité . Le problème est que nous calculons une statistique inférentielle discrète :

χ2=(OE)2E

χ2 (r1)(c1) ). Cela conduit nécessairement à un décalage à un certain niveau. Avec un ensemble de données particulièrement petit et si certaines cellules ont des valeurs attendues inférieures à 5, il est possible que la valeur p soit trop petite. La correction de Yates s'ajuste pour cela.

Ironiquement, le même problème sous-jacent (discordance continue discrète) peut conduire à des valeurs de p qui sont trop élevées . Plus précisément, la valeur de p est conventionnellement définie comme la probabilité d'obtenir des données aussi extrêmes ou plusque les données observées. Avec des données continues, il est entendu que la probabilité d'obtenir une valeur exacte est très faible, et nous avons donc vraiment la probabilité de données plus extrêmes. Cependant, avec des données discrètes, il y a une probabilité finie d'obtenir des données comme la vôtre. Le seul calcul de la probabilité d'obtenir des données plus extrêmes que la vôtre donne des valeurs p nominales trop faibles (conduisant à une augmentation des erreurs de type I), mais l'inclusion de la probabilité d'obtenir des données identiques aux vôtres conduit à des valeurs p nominales trop élevées (ce qui entraînerait une augmentation des erreurs de type II). Ces faits incitent à l'idée de la valeur p moyenne moitié. Selon cette approche, la valeur de p est la probabilité de données plus extrême que la vôtre plus la probabilité de données exactement la même que la vôtre.

Comme vous l'avez souligné, il existe de nombreuses possibilités pour tester les données des tables de contingence. Le traitement le plus complet des avantages et des inconvénients des différentes approches est ici . Ce document est spécifique aux tableaux 2x2, mais vous pouvez toujours en apprendre beaucoup sur les options pour les données des tableaux de contingence en le lisant.

Je pense aussi que cela vaut la peine de considérer les modèles sérieusement. Les tests plus anciens comme le chi carré sont rapides, faciles et compris par de nombreuses personnes, mais ne vous laissent pas avec une compréhension aussi complète de vos données que celle que vous obtenez en construisant un modèle approprié. S'il est raisonnable de considérer les lignes [colonnes] de votre tableau de contingence comme une variable de réponse, et les colonnes [lignes] comme des variables explicatives / prédictives, une approche de modélisation suit assez facilement. Par exemple, si vous n'aviez que deux lignes, vous pouvez créer un modèle de régression logistique ; s'il y a plusieurs colonnes, vous pouvez utiliser le codage de cellule de référence (codage factice) pour construire un modèle de type ANOVA. En revanche, si vous avez plus de deux lignes, vous régression logistique multinomialepouvez l'utiliser de la même manière. Si vos lignes ont un ordre intrinsèque,une régression logistique ordinale donnerait des performances supérieures aux multinomiaux. Le modèle log-linéaire (régression de Poisson) est probablement moins pertinent sauf si vous avez des tableaux de contingence à plus de deux dimensions, à mon avis.

Pour un traitement complet de sujets comme ceux-ci, les meilleures sources sont les livres d'Agresti: soit son traitement à grande échelle (plus rigoureux), son livre d'introduction (plus facile mais toujours complet et très bon), ou peut-être aussi son livre ordinal .

G2-test

G2=Oln(OE)

gung - Réintégrer Monica
la source
1
C'était une excellente explication du problème sous-jacent, merci! De plus, on m'a dit dans le passé que le texte d'Agresti est une excellente ressource, donc je vais le vérifier.
JVMcDonnell
4

Je vais essayer de répondre à certaines de vos questions du mieux que je peux de mon point de vue. Tout d'abord, le test de Fisher-Irwin n'est qu'un autre nom pour le test exact de Fisher. Hormis le fait qu'il est parfois intense sur le plan des calculs, je préfère généralement utiliser le test de Fisher. S'il y a un problème avec ce test, il est conditionné par les totaux marginaux. La beauté du test est que, dans l'hypothèse nulle, l'ensemble des tableaux de contingence avec les mêmes totaux marginaux que le tableau observé a une distribution hypergéométrique. Certaines personnes soutiennent qu'elles ne voient pas la justification de restreindre la prise en compte aux tableaux ayant les mêmes totaux marginaux.

Le test du chi carré de Pearson est très couramment utilisé pour tester l'association dans les tableaux de contingence. Comme beaucoup d'autres tests, il est approximatif et le niveau de signification n'est donc pas toujours précis. Cochran a montré que dans de petits échantillons lorsque certaines cellules sont très clairsemées (par exemple contenant moins de 5 cas dans certaines cellules) l'approximation sera mauvaise.

Il existe de nombreux autres tests approximatifs. En général, lors de l'application du test de Fisher à l'aide de SAS, j'obtiens les résultats de tous ces tests et ils donnent généralement presque les mêmes résultats. Mais le test de Fisher est toujours exactement conditionnel aux totaux marginaux.

En ce qui concerne la régression de Poisson, il s'agit d'un modèle qui relie les variables catégorielles aux totaux des cellules. Comme tout modèle, il dépend d'un ensemble d'hypothèses. Le plus important est que les nombres de cellules suivent une distribution de Poisson, ce qui signifie que le nombre moyen de nombres est égal à sa variance. Ce n'est généralement pas vrai pour les distributions de comptage de cellules. En cas de surdispersion (variance supérieure à la moyenne), un modèle binomial négatif pourrait être plus approprié.

Michael R. Chernick
la source
"Le test de Fisher-Irwin n'est qu'un autre nom pour le test exact de Fisher" ... aha, cela rend ce commentaire moins déroutant pour moi, merci!
JVMcDonnell
3
Votre réponse n'a pas vraiment réduit ma confusion quant au moment de faire ces choses. J'imagine que l'une des choses que j'espérais entendre est de savoir dans quelle mesure les problèmes avec le chi ^ 2 peuvent être résolus par la simulation ou les corrections de monte carlo, etc. ou la mesure dans laquelle il peut être remplacé par glms. Je vais donc laisser cela ouvert un peu pour voir si je peux obtenir plus de piqûres. Mais si personne n'intervient après un moment, j'accepterai votre réponse.
JVMcDonnell
Pour Fisher et Chi-square, je pense que je vous ai dit quand vous pouvez utiliser le chi carré. Si vous acceptez l'idée de Fisher selon laquelle vous devriez toujours conditionner les totaux marginaux, le test de Fisher est toujours applicable. Mais si vous n'acceptez pas cela, je suppose que vous devrez choisir un test inconditionnel. Quant aux autres batteries de tests disponibles, je ne sais rien de leurs propriétés et ne peux donc pas vraiment vous conseiller quand les utiliser. Expérience de la forme J'ai vu des cas où cela importait car les résultats sont généralement en accord étroit.
Michael R. Chernick
Est-il vraiment vrai que Fisher pensait que "vous devriez toujours conditionner les totaux marginaux"? Cette hypothèse n'est valable que lorsque les totaux marginaux sont fixes. Dans l'exemple de la dégustation de thé, la dame sait que 5 sont du lait en premier et 5 du lait en dernier. Mais il est plus courant dans les expériences qu'il n'y a pas de force pour appliquer les marginaux. Prenons le cas de lancer deux pièces 10 fois chacune. Lorsque 5 têtes roulent, la pièce ne commence pas à donner des queues pour préserver les marginaux. Dans de tels cas, il a été documenté que Fisher est très conservateur. C'est pourquoi je m'intéresse aux alternatives.
JVMcDonnell
Oui. Je crois comprendre que Fisher croyait au choix de distributions de référence qui utilisent des informations à partir des données fournies. Donc, il penserait que, peu importe la façon dont les totaux mariginaux ont été obtenus, vos données observées ne devraient être comparées qu'aux données qui se seraient produites dans l'hypothèse nulle qui a suivi les contraintes sur les données, à savoir les totaux marginaux donnés. Comme pour les autres idées de Fisher, cela était controversé.
Michael R. Chernick