Je voudrais voir une extension de cette discussion sur le débat séculaire du chi carré contre le test exact de Fisher, élargissant un peu la portée. Il existe de nombreux tests d'interactions dans une table de contingence, assez pour faire tourner la tête. J'espère avoir une explication sur le test que je devrais utiliser et quand, et bien sûr une explication sur la raison pour laquelle un test devrait être préféré à un autre.
Mon problème actuel est le cas classique , mais les réponses concernant une dimensionnalité plus élevée sont les bienvenues, tout comme les conseils pour la mise en œuvre des différentes solutions dans R, au moins, dans les cas où il n'est pas évident de savoir comment procéder.
Ci-dessous, j'ai énuméré tous les tests que je connais; J'espère qu'en exposant mes erreurs, elles pourront être corrigées.
. L'ancienne veille. Il y a trois options principales ici:
- La correction intégrée dans R pour les tables 2x2: "une moitié est soustraite de toutes les différences ." Dois-je toujours faire ça?
- " " χ 2 Test, je ne sais pas comment faire cela dans R.
- Simulation de Monte Carlo. Est-ce toujours le meilleur? Pourquoi R ne me donne-t-il pas df quand je fais ça?
-
- Traditionnellement conseillé lorsqu'une cellule devrait être <4, mais apparemment certains contestent ce conseil.
- Est-ce que l'hypothèse (généralement fausse) que les marginaux sont fixes est vraiment le plus gros problème avec ce test?
-
- Un autre test exact, sauf que je n'en ai jamais entendu parler.
Régression de Poisson
- Une chose qui m'embrouille toujours à propos de glms est exactement comment faire ces tests de signification, donc une aide serait appréciée. Est-il préférable de comparer les modèles imbriqués? Qu'en est-il d'un test de Wald pour un prédicteur particulier?
- Dois-je vraiment toujours faire une régression de Poisson? Quelle est la différence pratique entre cela et un test ?
la source
Je vais essayer de répondre à certaines de vos questions du mieux que je peux de mon point de vue. Tout d'abord, le test de Fisher-Irwin n'est qu'un autre nom pour le test exact de Fisher. Hormis le fait qu'il est parfois intense sur le plan des calculs, je préfère généralement utiliser le test de Fisher. S'il y a un problème avec ce test, il est conditionné par les totaux marginaux. La beauté du test est que, dans l'hypothèse nulle, l'ensemble des tableaux de contingence avec les mêmes totaux marginaux que le tableau observé a une distribution hypergéométrique. Certaines personnes soutiennent qu'elles ne voient pas la justification de restreindre la prise en compte aux tableaux ayant les mêmes totaux marginaux.
Le test du chi carré de Pearson est très couramment utilisé pour tester l'association dans les tableaux de contingence. Comme beaucoup d'autres tests, il est approximatif et le niveau de signification n'est donc pas toujours précis. Cochran a montré que dans de petits échantillons lorsque certaines cellules sont très clairsemées (par exemple contenant moins de 5 cas dans certaines cellules) l'approximation sera mauvaise.
Il existe de nombreux autres tests approximatifs. En général, lors de l'application du test de Fisher à l'aide de SAS, j'obtiens les résultats de tous ces tests et ils donnent généralement presque les mêmes résultats. Mais le test de Fisher est toujours exactement conditionnel aux totaux marginaux.
En ce qui concerne la régression de Poisson, il s'agit d'un modèle qui relie les variables catégorielles aux totaux des cellules. Comme tout modèle, il dépend d'un ensemble d'hypothèses. Le plus important est que les nombres de cellules suivent une distribution de Poisson, ce qui signifie que le nombre moyen de nombres est égal à sa variance. Ce n'est généralement pas vrai pour les distributions de comptage de cellules. En cas de surdispersion (variance supérieure à la moyenne), un modèle binomial négatif pourrait être plus approprié.
la source