introduction
J'ai un tableau de contingence catégorique avec de nombreuses lignes et un résultat binaire, que je compte:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
C'est très bien, car pourtant les deux catégories (nom et résultat) sont indépendantes l'une de l'autre, c'est -à- dire que la personne A ne peut pas être la personne B en même temps, et le résultat1 ne se produit pas en même temps que le résultat2.
Ajout de problèmes
Cependant, je souhaite maintenant enrichir mon ensemble de données en affectant des classes aux agents. Les cours ne sont pas exclusifs et certains peuvent même dépendre les uns des autres. Pour l'exemple ci-dessus, avec quatre classes C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Je veux maintenant savoir s'il y a une dépendance d'une classe sur le résultat de l'expérience.
Solution (naïve) possible
Mon idée était initialement d'agréger en fonction de la classe, puis d'effectuer les tests d'indépendance, afin que le tableau ressemble à ceci:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
Cependant, je me suis alors rendu compte que je masquais l'influence des autres classes avec cette méthode, car j'isolais en fonction de la classe, ce qui peut me donner de mauvais résultats si certaines des classes dépendent fortement les unes des autres.
De plus, mon véritable ensemble de données contient environ 200 agents et 30 catégories, donc ma méthode donnerait beaucoup de résultats que je sais maintenant interpréter.
La question
Dans cet esprit, je me tourne vers vous: quelle méthode statistique est applicable pour tester la (in-) dépendance à un ensemble de données avec une variable catégorielle non exclusive et une variable catégorielle binaire?
Je voudrais obtenir un résultat du type "La catégorie 1 est le prédicteur le plus fort pour le résultat ( p <0,01). Il est également en corrélation avec la catégorie 2."
Les solutions utilisant Python ou R sont plus que bienvenues, mais je n'ai pas besoin de code. J'ai besoin de savoir quelle méthode est applicable.
Réponses:
Je suggère de faire une régression de poisson séparément sur le résultat1 et le résultat2 (variables de réponse) avec classe1, classe2, classe3 ou classe4 comme variables explicatives.
Vous dites que les classes ne sont pas exclusives, mais ce n'est pas un problème si vous tenez compte de l'interaction entre les classes. Vous pouvez en savoir plus sur l'interaction dans l'article suivant: Spécification et interprétation des termes d'interaction à l'aide de glm ()
Comment gérer la dépendance entre les classes (en termes de régression de poisson), je ne vois pas d'issue. Vous pouvez mesurer la signification de l'association avec un test du chi carré et la force de l'association avec le V de Cramer . Si cela répond à votre question, je ne sais pas.
la source