introduction

J'ai un tableau de contingence catégorique avec de nombreuses lignes et un résultat binaire, que je compte:

name  outcome1  outcome2
----  --------  --------
A     14        5       
B     17        2       
C     6         5       
D     11        8       
E     18        14

C'est très bien, car pourtant les deux catégories (nom et résultat) sont indépendantes l'une de l'autre, c'est -à- dire que la personne A ne peut pas être la personne B en même temps, et le résultat1 ne se produit pas en même temps que le résultat2.

Ajout de problèmes

Cependant, je souhaite maintenant enrichir mon ensemble de données en affectant des classes aux agents. Les cours ne sont pas exclusifs et certains peuvent même dépendre les uns des autres. Pour l'exemple ci-dessus, avec quatre classes C x :

name  C1   C2   C3   C4 
----  ---  ---  ---  ---
A     0    0    1    1  
B     1    0    1    0  
C     1    1    0    1  
D     1    1    0    0  
E     1    1    1    0

Je veux maintenant savoir s'il y a une dépendance d'une classe sur le résultat de l'expérience.

Solution (naïve) possible

Mon idée était initialement d'agréger en fonction de la classe, puis d'effectuer les tests d'indépendance, afin que le tableau ressemble à ceci:

class   outcome1  outcome2
------  --------  --------
C3      49        21
not_C3  17        13

Cependant, je me suis alors rendu compte que je masquais l'influence des autres classes avec cette méthode, car j'isolais en fonction de la classe, ce qui peut me donner de mauvais résultats si certaines des classes dépendent fortement les unes des autres.

De plus, mon véritable ensemble de données contient environ 200 agents et 30 catégories, donc ma méthode donnerait beaucoup de résultats que je sais maintenant interpréter.

La question

Dans cet esprit, je me tourne vers vous: quelle méthode statistique est applicable pour tester la (in-) dépendance à un ensemble de données avec une variable catégorielle non exclusive et une variable catégorielle binaire?

Je voudrais obtenir un résultat du type "La catégorie 1 est le prédicteur le plus fort pour le résultat ( p <0,01). Il est également en corrélation avec la catégorie 2."

Les solutions utilisant Python ou R sont plus que bienvenues, mais je n'ai pas besoin de code. J'ai besoin de savoir quelle méthode est applicable.

categorical-data non-independent predictor tschoppi
la source

le résultat 1 et le résultat 2 sont également indépendants? Vous dites seulement qu'ils ne se produisent pas en même temps. J'imagine que vous pourriez faire une régression de poisson ici, si vous voulez mesurer la dépendance de plusieurs variables sur le résultat. Mais cela pourrait être un problème si vos variables explicatives sont très dépendantes.

Erosennin

Oui, le résultat 1 et le résultat 2 sont indépendants.

tschoppi

Si «le résultat 1 ne se produit pas en même temps que le résultat 2», ils ne sont certainement pas indépendants. Cela aiderait à expliquer le contexte - quelles observations faites-vous exactement pour chaque personne?

Scortchi - Réintégrer Monica

@Scortchi Pourriez-vous développer cette déclaration d'indépendance? Ne pourraient-ils pas être indépendants parce qu'ils se produisent en même temps?

Erosennin

@tschoppi vous écrivez: "Maintenant, je veux attribuer (à la main) des classes à ces personnes, puis tester si la sortie dépend de l'une des classes. Mon problème est que les classes, bien qu'elles ne dépendent pas nécessairement les unes des autres, sont ne sont pas exclusives. Les classes peuvent cependant être dépendantes les unes des autres. " Le fait qu'ils soient exclusifs pourrait être résolu en les faisant interagir les uns avec les autres lors de la spécification de la régression du poisson. Si je ne suis pas complètement sur la bonne voie ici, mal comprendre vos données et votre question

Erosennin

Je suggère de faire une régression de poisson séparément sur le résultat1 et le résultat2 (variables de réponse) avec classe1, classe2, classe3 ou classe4 comme variables explicatives.

Vous dites que les classes ne sont pas exclusives, mais ce n'est pas un problème si vous tenez compte de l'interaction entre les classes. Vous pouvez en savoir plus sur l'interaction dans l'article suivant: Spécification et interprétation des termes d'interaction à l'aide de glm ()

Comment gérer la dépendance entre les classes (en termes de régression de poisson), je ne vois pas d'issue. Vous pouvez mesurer la signification de l'association avec un test du chi carré et la force de l'association avec le V de Cramer . Si cela répond à votre question, je ne sais pas.

Erosennin
la source

Je soupçonne (1) que l'intérêt pourrait se concentrer sur les décomptes du résultat 1 par rapport au résultat 2 et (2) ignorer le niveau de la personne / de l'agent pourrait être imprudent.

Scortchi - Réintégrer Monica

Ne répondra-t-on pas (1) par une comparaison des coefficients (sortie de la régression) résultat1 et résultat2?

Erosennin

(1) Oui; mais exactement comment les comparer semble être une partie importante de la question. (Une approche pratique serait de traiter le «type de résultat» comme un prédicteur du «nombre» et d'inclure toutes ses interactions avec les variables de «classe». Vous auriez un modèle plus grand englobant vos deux régressions distinctes - c'est un modèle log-linéaire pour une table de contingence multidimensionnelle -. mais avec les différences entre les haut la main paramétrés Certains pourraient aller plus loin et en faire un modèle de régression logistique en conditionnant ce qu'ils considéraient comme des paramètres de nuisance).

Scortchi - Réintégrer Monica

(2) Le deuxième point est plus important. Tom et Dick fument 20 et 35 cigarettes sur une semaine; Harry et Pete, sur un nouveau traitement anti-tabac, 30 et 280. Est-ce que nous évaluons l'efficacité du traitement en comparant le nombre total de non. cigarettes fumées par des personnes qui ne l'utilisent pas, 55, au total non. fumé par les gens qui l'utilisent, 310?

Scortchi - Réintégrer Monica

(1) Voir Quel test puis-je utiliser pour comparer les pentes de deux modèles de régression ou plus? pour l'idée générale d'un "grand modèle", puis régression log-linéaire vs régression logistique & Germán Rodríguez sur les modèles log-linéaires . (2) Une comparaison par paire d'avant après serait utile, je ne voulais pas suggérer cela par mon exemple bien que (désolé) - plutôt un modèle hiérarchique.

Scortchi - Réintégrer Monica

Comment tester l'indépendance avec des variables catégorielles non exclusives?

introduction

Ajout de problèmes

Solution (naïve) possible

La question

Réponses: