Quelle est la meilleure façon de visualiser les effets des catégories et leur prévalence dans la régression logistique?

11

Je dois présenter des informations sur les principaux prédicteurs des votes d'un candidat à l'aide des données d'un sondage d'opinion publique. J'ai effectué une régression logistique en utilisant toutes les variables qui m'intéressent, mais je ne trouve pas un bon moyen de présenter ces informations.

Mon client ne se soucie pas seulement de la taille de l'effet, mais de l'interaction entre la taille de l'effet et la taille de la population avec un tel attribut.

Comment puis-je traiter cela dans un graphique? Aucune suggestion?

Voici un exemple:

Le de la variable SEX (Homme = 1) lorsque la variable dépendante est Vote / Not dans un candidat est 2,3, ce qui est un grand nombre après avoir été exponentiés et traités comme un rapport de cotes ou une probabilité. Cependant, la société dans laquelle cette enquête a été menée ne comptait que 30% d'hommes. Par conséquent, bien que l'homme ait beaucoup soutenu ce candidat, leur nombre est insignifiant pour un candidat qui tente de remporter une élection majoritaire.β

user1172558
la source
FWIW, l'utilisation du terme "interaction" est incorrecte (voir par exemple ici ou ici ). Je dirais quelque chose comme «... mais pour identifier les situations où la taille de l'effet est grande et la taille de la population avec un tel attribut est également grande».
gung - Rétablir Monica

Réponses:

10

Je suis d'accord avec @PeterFlom que l'exemple est étrange, mais en mettant cela de côté, je remarque que la variable explicative est catégorique. Si cela est toujours vrai, cela simplifie grandement la chose. J'utiliserais des graphiques en mosaïque pour présenter ces effets. Un graphique en mosaïque affiche des proportions conditionnelles verticalement, mais la largeur de chaque catégorie est mise à l'échelle par rapport à sa proportion marginale (c'est-à-dire inconditionnelle) dans l'échantillon.

Voici un exemple avec les données de la catastrophe du Titanic, créées à l'aide de R:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

entrez la description de l'image ici

À gauche, nous voyons que les femmes étaient beaucoup plus susceptibles de survivre, mais les hommes représentaient peut-être environ 80% des personnes à bord. Ainsi, l'augmentation du pourcentage de survivants masculins aurait signifié beaucoup plus de vies sauvées qu'une augmentation encore plus importante du pourcentage de survivantes féminines. Ceci est quelque peu analogue à votre exemple. Il y a un autre exemple à droite où l'équipage et la direction constituaient la plus grande proportion de personnes, mais avaient la plus faible probabilité de survie. (Pour ce que ça vaut, ce n'est pas une analyse complète de ces données, parce que la classe et le sexe n'étaient pas non plus indépendants sur le Titanic, mais cela suffit pour illustrer les idées pour cette question.)

gung - Réintégrer Monica
la source
5

Je suis un peu curieux de savoir quelle société ne comptait que 10% d'hommes ... mais ...

Une chose que vous pourriez faire est de tracer les rapports de cotes et d'étiqueter chacun avec la taille de l'échantillon.

Si vous souhaitez que les deux variables soient représentées graphiquement, vous pouvez créer un graphique à bulles, la position de chaque bulle sur l'axe y correspondant à la taille du rapport de cotes et la zone de la bulle proportionnelle à la taille de l'échantillon.

Peter Flom - Réintégrer Monica
la source
7
Peut - être celui- ci.
Andre Silva