Je dois présenter des informations sur les principaux prédicteurs des votes d'un candidat à l'aide des données d'un sondage d'opinion publique. J'ai effectué une régression logistique en utilisant toutes les variables qui m'intéressent, mais je ne trouve pas un bon moyen de présenter ces informations.
Mon client ne se soucie pas seulement de la taille de l'effet, mais de l'interaction entre la taille de l'effet et la taille de la population avec un tel attribut.
Comment puis-je traiter cela dans un graphique? Aucune suggestion?
Voici un exemple:
Le de la variable SEX (Homme = 1) lorsque la variable dépendante est Vote / Not dans un candidat est 2,3, ce qui est un grand nombre après avoir été exponentiés et traités comme un rapport de cotes ou une probabilité. Cependant, la société dans laquelle cette enquête a été menée ne comptait que 30% d'hommes. Par conséquent, bien que l'homme ait beaucoup soutenu ce candidat, leur nombre est insignifiant pour un candidat qui tente de remporter une élection majoritaire.
la source
Réponses:
Je suis d'accord avec @PeterFlom que l'exemple est étrange, mais en mettant cela de côté, je remarque que la variable explicative est catégorique. Si cela est toujours vrai, cela simplifie grandement la chose. J'utiliserais des graphiques en mosaïque pour présenter ces effets. Un graphique en mosaïque affiche des proportions conditionnelles verticalement, mais la largeur de chaque catégorie est mise à l'échelle par rapport à sa proportion marginale (c'est-à-dire inconditionnelle) dans l'échantillon.
Voici un exemple avec les données de la catastrophe du Titanic, créées à l'aide de R:
À gauche, nous voyons que les femmes étaient beaucoup plus susceptibles de survivre, mais les hommes représentaient peut-être environ 80% des personnes à bord. Ainsi, l'augmentation du pourcentage de survivants masculins aurait signifié beaucoup plus de vies sauvées qu'une augmentation encore plus importante du pourcentage de survivantes féminines. Ceci est quelque peu analogue à votre exemple. Il y a un autre exemple à droite où l'équipage et la direction constituaient la plus grande proportion de personnes, mais avaient la plus faible probabilité de survie. (Pour ce que ça vaut, ce n'est pas une analyse complète de ces données, parce que la classe et le sexe n'étaient pas non plus indépendants sur le Titanic, mais cela suffit pour illustrer les idées pour cette question.)
la source
Je suis un peu curieux de savoir quelle société ne comptait que 10% d'hommes ... mais ...
Une chose que vous pourriez faire est de tracer les rapports de cotes et d'étiqueter chacun avec la taille de l'échantillon.
Si vous souhaitez que les deux variables soient représentées graphiquement, vous pouvez créer un graphique à bulles, la position de chaque bulle sur l'axe y correspondant à la taille du rapport de cotes et la zone de la bulle proportionnelle à la taille de l'échantillon.
la source