J'essaie de comparer visuellement comment trois publications d'actualités différentes couvrent différents sujets (déterminées par un modèle de sujet LDA). J'ai deux méthodes connexes pour le faire, mais j'ai reçu beaucoup de commentaires de collègues que ce n'est pas très intuitif. J'espère que quelqu'un là-bas aura une meilleure idée pour visualiser cela.
Dans le premier graphique, je montre les proportions de chaque sujet dans chaque publication, comme ceci:
C'est assez simple et intuitif pour presque tous ceux à qui j'ai parlé. Cependant, il est difficile de voir les différences entre les publications. Quel journal couvre plus quel sujet?
Pour y arriver, j'ai représenté graphiquement la différence entre la publication avec la proportion de sujets la plus élevée et la deuxième plus élevée, colorée par la publication la plus élevée. Comme ça:
Ainsi, l'énorme barre pour le football, par exemple, est vraiment la distance entre al-Ahram English et Daily News Egypt (n ° 2 dans la couverture du football), et elle est colorée en rouge car Al-Ahram est n ° 1. De même, les essais sont verts car Egypt Independent a la proportion la plus élevée, et la taille de la barre est la distance entre Egypt Independent et Daily News Egypt (# 2 encore).
Le fait que je doive expliquer que le tout en deux paragraphes est un signe assez sûr que le graphique échoue au test d'autosuffisance. Il est difficile de dire ce qui se passe vraiment en le regardant.
Avez-vous des suggestions générales sur la façon de mettre en évidence visuellement la publication dominante pour chaque sujet de manière plus intuitive?
Edit: Données pour jouer avec: Voici la dput
sortie de R , ainsi qu'un fichier CSV .
Edit 2: Voici une version préliminaire du tracé de points, avec les diamètres des points proportionnels à la proportion du sujet dans le corpus (c'est ainsi que les sujets ont été triés à l'origine). Bien que je doive encore le peaufiner un peu plus, cela semble beaucoup plus intuitif que ce que je faisais auparavant. Merci tout le monde!
Réponses:
Merci d'avoir rendu les données accessibles et pour un ensemble de données intéressant et un défi graphique.
Ma principale suggestion est un graphique à points (Cleveland).
Les détails les plus importants que je voudrais souligner:
La superposition permet ici et facilite la comparaison.
L'ordre des sujets dans vos affichages semble assez arbitraire. En l'absence d'un ordre naturel (par exemple, le temps, l'espace, une variable ordonnée), je trierais toujours l'une des variables pour fournir un cadre. Le choix peut être une question de savoir si l'un est particulièrement intéressant ou important, la décision d'un chercheur. Une autre possibilité consiste à ordonner une certaine mesure des différences entre les articles, de sorte que les sujets bénéficiant d'une couverture similaire se trouvent à une extrémité et ceux qui reçoivent une couverture différente à l'autre extrémité.
Les marqueurs ouverts ou les symboles ponctuels permettent de mieux résoudre le chevauchement ou l'identité que les marqueurs ou symboles fermés ou solides, qui dans le pire des cas s'obscurcissent ou s'obstruent. (Une alternative qui pourrait très bien fonctionner ici est des lettres telles que A, D et I pour les trois journaux.)
Il y a clairement beaucoup de possibilités pour améliorer ma conception. Par exemple, le lettrage est-il trop gros et / ou trop lourd? En revanche, les en-têtes doivent être facilement lisibles, sinon le graphique est un échec.
Quelques points plus petits et plus difficiles:
une. Le rouge et le vert sur votre graphique sont une combinaison de couleurs à éviter. Lorsque différents marqueurs sont utilisés, les choix de couleurs sont un peu moins cruciaux.
b. Les graduations horizontales sur votre graphique sont gênantes. En revanche, des lignes de grille sur la mienne sont nécessaires, mais j'essaie de les rendre discrètes en utilisant des lignes fines et légères.
Les graphiques à points de Cleveland doivent le plus à
Cleveland, WS 1984. Méthodes graphiques pour la présentation des données: ruptures à grande échelle, graphiques à points et journalisation multibas. Statisticien américain 38: 270-80.
Cleveland, WS 1985. Éléments de données graphiques. Monterey, Californie: Wadsworth.
Cleveland, WS 1994. Éléments de données graphiques. Sommet, NJ: Hobart Press.
Un précurseur (plus célèbre statistiquement pour un travail très différent !!!) a été
Pearson, ES 1956. Quelques aspects de la géométrie des statistiques: l'utilisation de la présentation visuelle pour comprendre la théorie et l'application des statistiques mathématiques. Journal de la Royal Statistical Society A 119: 125-146.
Pour les personnes intéressées, le graphique a été préparé dans Stata après lecture dans le .csv avec le code
la source
L'intrigue de points de Nick Cox est probablement la meilleure pour l'image complète. Si vous voulez vraiment mettre l'accent sur la première relation par rapport à la seconde, voici une modification de votre graphique qui compense la barre de différence avec la longueur de la deuxième barre.
Et pour une vue d'ensemble différente, vous pouvez essayer quelque chose comme un graphique de pente ou un tracé de coordonnées parallèles. Les lignes peuvent être un peu trop encombrées ici, mais cela peut fonctionner si vous souhaitez mettre en évidence un sous-ensemble des sujets.
En outre, vous pouvez essayer helpmeviz.com qui est orienté vers des questions très spécifiques sur les données comme celle-ci.
la source
Mon premier instict fut de suggérer un complot mosaïque ; il représente chaque sous-catégorie sous forme de rectangle, où une dimension représente le nombre total pour la catégorie principale et l'autre dimension représente la part proportionnelle de la sous-catégorie. Il existe un package R pour les dessiner , mais il est également assez simple de le faire avec des outils graphiques de niveau inférieur.
Cependant, les graphiques en mosaïque (comme les graphiques à barres empilées en pourcentage) fonctionnent mieux s'il n'y a que 2 ou 3 catégories dans la dimension dans laquelle vous souhaitez comparer les proportions. Ils fonctionneraient donc bien si vous vouliez comparer les différences entre les sujets dans la proportion d'articles qui figuraient dans chacun des trois journaux , mais pas tant pour votre utilisation prévue, en comparant les différences entre trois journaux dans la proportion de couverture pour chaque sujet . Une distinction subtile mais importante!
Pour ce que vous voulez souligner, je pense que le graphique le plus efficace est l'un des plus simples - un graphique à barres groupées. Plus de gens comprennent les graphiques à barres que les graphiques à points; en un coup d'œil, vous pouvez voir que vous comparez des quantités de tailles différentes et que les valeurs que vous souhaitez comparer sont côte à côte.
Cependant, si vous vouliez vraiment souligner les différences de proportion, vous pouvez créer un graphique à barres groupées personnalisé, modifié pour positionner chaque groupe de sorte que la valeur médiane par catégorie soit alignée avec l'axe, au lieu des valeurs nulles:
Notez que les barres de chaque groupe sont toujours alignées pour faciliter la comparaison de la taille et que la ligne de base de chaque groupe est désormais positionnée à gauche de l'axe en fonction de la valeur médiane de ce groupe, tandis que les barres qui se projettent à droite de l'axe sont équivalentes à votre deuxième graphique à barres montrant la différence entre les deux catégories supérieures.
Que vous utilisiez un graphique à barres groupé standard ou un graphique à décalage ajusté comme ci-dessus, vous pouvez toujours prendre une idée à partir de graphiques en mosaïque et rendre la largeur de chaque barre proportionnelle au nombre total d'articles pour ce journal (donc la taille de la barre est proportionnelle au nombre d'articles dans ce journal dans cette catégorie).
Étant donné que votre statistique de test est une propriété de chaque comparaison , pas de valeurs individuelles, je ne pense pas qu'il soit utile de mettre à l'échelle chaque point de données en fonction de la signification. Au lieu de cela, j'aurais une icône à côté de chaque groupe représentant la signification. Pour la publication académique, la norme
*
/**
/***
présente l'avantage de la familiarité, mais vous pouvez faire preuve de créativité si vous souhaitez afficher le continuum complet de la statistique.la source
Avez-vous essayé un graphique à bulles? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart
Les sujets individuels pourraient être des cercles et chaque cercle pourrait être un diagramme circulaire du pourcentage que chaque média couvre le sujet. La taille du cercle pourrait indiquer la couverture relative du sujet. Par exemple, si plus d'articles totaux sont écrits sur l'huile que sur la culture, le cercle d'huile a un diamètre plus grand.
la source