J'ai croisé des données classifiées dans un tableau 2 x 2 x 6. Appelons les dimensions response
, A
et B
. J'ai ajusté une régression logistique aux données avec le modèle response ~ A * B
. Une analyse de la déviance de ce modèle indique que les termes et leur interaction sont importants.
Cependant, si l'on considère les proportions des données, il semble que seuls 2 niveaux environ de B
sont responsables de ces effets importants. Je voudrais tester pour voir quels niveaux sont les coupables. À l'heure actuelle, mon approche consiste à effectuer 6 tests du chi carré sur 2 x 2 tableaux de response ~ A
, puis à ajuster les valeurs de p de ces tests pour des comparaisons multiples (en utilisant l'ajustement de Holm).
Ma question est de savoir s'il existe une meilleure approche de ce problème. Existe-t-il une approche de modélisation plus fondée sur des principes ou une approche de comparaison de tests khi-deux multiples?
Réponses:
Vous devriez vous pencher sur "partitionner le chi carré". Ceci est similaire en logique à la réalisation de tests post-hoc en ANOVA. Il vous permettra de déterminer si votre test global significatif est principalement attribuable à des différences dans des catégories ou des groupes de catégories particuliers.
Un rapide google a présenté cette présentation, qui à la fin discute des méthodes de partitionnement du chi carré.
http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/2way_chi-ha-online.pdf
la source
L'approche sans principes consiste à éliminer les données disproportionnées, à réaménager le modèle et à voir si les rapports de cotes logit / conditionnel pour la réponse et A sont très différents (en contrôlant B). Cela pourrait vous dire s'il y a lieu de s'inquiéter. La mise en commun des niveaux de B est une autre approche. Sur des lignes plus fondées sur des principes, si vous vous inquiétez des proportions relatives induisant le paradoxe de Simpson, vous pouvez examiner les rapports de cotes conditionnels et marginaux pour la réponse / A et voir s'ils s'inversent.
Pour éviter les comparaisons multiples en particulier, la seule chose qui me vient à l'esprit est d'utiliser un modèle hiérarchique qui tient compte des effets aléatoires à travers les niveaux.
la source
Je ne sais pas exactement quels sont vos objectifs, ni pourquoi ils sont ce qu'ils sont. Mais plutôt que de tester des hypothèses, je recommande généralement de concentrer l'attention sur les prédictions et les intervalles de confiance.
la source
Le test post-hoc peut correspondre à votre problème. Fonction chisqPostHoc () dans les tests R pour les différences significatives entre toutes les paires de populations dans un test du chi carré. Même si je ne l'ai pas utilisé, ce lien peut être utile. https://www.rforge.net/doc/packages/NCStats/chisqPostHoc.html
Une autre alternative peut être la fonction chisq.desc () du package EnQuireR.
la source