Je crée un graphique pour montrer les tendances des taux de mortalité (pour 1 000 personnes) dans différents pays et l'histoire qui devrait résulter de l'intrigue est que l'Allemagne (ligne bleu clair) est le seul dont la tendance est à la hausse après 1932. C'est mon premier essai (basique)
À mon avis, ce graphique montre déjà ce que nous voulons qu'il raconte, mais il n'est pas très intuitif. Avez-vous des suggestions pour clarifier cette distinction entre les tendances? Je pensais tracer des taux de croissance, mais j’ai essayé et ce n’est pas mieux.
Les données sont les suivantes
year de fr be nl den ch aut cz pl
1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3
1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4
1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7
1930 10.4 15.6 12.8 9.1 10.8 11.6 13.5 14.2 15.6
1931 10.4 16.2 12.7 9.6 11.4 12.1 14 14.4 15.5
1932 10.2 15.8 12.7 9 11 12.2 13.9 14.1 15
1933 10.8 15.8 12.7 8.8 10.6 11.4 13.2 13.7 14.2
1934 10.6 15.1 11.7 8.4 10.4 11.3 12.7 13.2 14.4
1935 11.4 15.7 12.3 8.7 11.1 12.1 13.7 13.5 14
1936 11.7 15.3 12.2 8.7 11 11.4 13.2 13.3 14.2
1937 11.5 15 12.5 8.8 10.8 11.3 13.3 13.3 14
data-visualization
PhDing
la source
la source
Réponses:
Parfois, moins c'est plus. Avec moins de détails sur les variations d’une année sur l’autre et les distinctions de pays, vous pouvez fournir plus d’informations sur les tendances. Comme les autres pays se déplacent généralement ensemble, vous pouvez vous en tirer sans couleurs séparées.
En utilisant un lisseur, vous obligez le lecteur à croire que vous n’avez lissé aucune variation intéressante.
Mise à jour après avoir reçu quelques demandes de code :
J'ai créé cela dans le générateur de graphes interactif de JMP . Le script JMP est:
));
la source
En revanche, vous trouverez ci-dessous un graphique correspondant aux données en niveaux. J'ai néanmoins essayé de faire en sorte que l'Allemagne seule monte après 1932 de deux manières: j'ai mis un point en évidence sur chaque série à 1932 et j'ai tracé une légère ligne grise sur l'arrière-plan à l'arrière-plan.
la source
Il y a beaucoup de bonnes idées ici dans d'autres réponses, mais elles n'épuisent pas les bonnes solutions possibles. Le premier graphique de cette réponse suppose que différents niveaux de taux de mortalité peuvent être discutés et expliqués séparément. En permettant à chaque série de occuper une grande partie de l'espace disponible, il attire l'attention du lecteur sur les modèles de changement relatif.
L'ordre alphabétique par pays est généralement un défaut de traitement et n'est pas insisté ici. Heureusement et fort heureusement, l’Allemagne en tant que de est au centre de cet affichage 3 x 3. Un récit simple - Regardez! Le modèle allemand est exceptionnel avec une reprise à partir de 1932 - est rendu possible et plausible.
Heureusement, mais heureusement, 9 pays suffisent à justifier l’essai de panneaux séparés, mais pas trop pour rendre cette conception impraticable (avec 30 et certainement 300 panneaux, il pourrait y avoir (trop) de panneaux à numériser, trop petits pour scruter).
De toute évidence, il y a beaucoup d'espace ici pour des noms de pays plus complets. (Dans d’autres réponses, les légendes occupent une grande partie de l’espace disponible, tout en restant un peu cryptiques. En pratique, les personnes intéressées par de telles données trouveraient facilement les abréviations de pays faciles à décoder, mais la légende est souvent trop complexe. problème épineux dans la conception graphique.)
Code Stata pour l'enregistrement:
MODIFIER:
Une amélioration simple de ce graphique suggérée par Tim Morris consiste à mettre en évidence l'année au cours de laquelle le maximum s'est produit:
EDIT 2 (révisé pour montrer un code plus simple):
Alternativement, cette conception suivante montre chaque série séparément, mais chaque fois avec l’autre série en toile de fond. L'idée générale est discutée dans ce fil connexe .
Il y a une perte aussi bien qu'un gain ici. Alors que chaque série peut être plus facilement vue dans le contexte des autres, l’espace est perdu par la répétition.
Code Stata pour l'enregistrement:
(Code à
input
,reshape
,rename
comme ci - dessus dans cette réponse)fabplot
doit être comprise commef
Ront ouf
oregrounda
ndb
ackdrop oub
parcelle ackground, non pas comme un écho des années 1960 l' argot pour « fabuleux ».la source
year
titre d’ axe x (qui en a besoin?). J'ajouterai que pour un utilisateur Stata, la structure de données naturelle serait une structure qui n'obligerait pas arename
etreshape
. mais a des panels distincts (ici des pays) sous forme de blocs d'observations distincts.Votre graphique est raisonnable, mais il nécessiterait quelques améliorations, notamment un titre, des étiquettes d'axe et des étiquettes de pays complètes. Si votre objectif est de souligner le fait que l’Allemagne est le seul pays où le taux de mortalité a augmenté au cours de la période d’observation, un moyen simple de le faire serait de mettre en évidence cette ligne dans l’intrigue, soit en utilisant une ligne plus épaisse, une ligne différente. type de ligne ou transparence alpha. Vous pouvez également augmenter votre graphique chronologique avec un graphique en barres indiquant l'évolution du taux de mortalité au fil du temps, de manière à réduire la complexité des lignes chronologiques à une seule mesure du changement.
Voici comment vous pouvez produire ces parcelles en utilisant
ggplot
dansR
:Cela conduit aux parcelles suivantes:
Remarque: Je suis conscient que le PO avait pour but de mettre en évidence l'évolution du taux de mortalité depuis 1932, lorsque la tendance en Allemagne a commencé à monter. Cela me semble un peu comme une cueillette de cerises, et je trouve cela douteux que des intervalles de temps soient choisis pour obtenir une tendance particulière. Pour cette raison, j'ai examiné l'intervalle sur toute la plage de données, ce qui est une comparaison différente de celle du PO.
la source
Bien que l'objectif affiché soit d'afficher les modifications, il semble que vous souhaitiez également afficher les séries chronologiques annuelles par pays. Cela suggère de ne pas refaire complètement le graphique, mais simplement de le modifier.
Étant donné qu’une modification concerne ce qui se passe d’une année sur l’autre, vous pouvez envisager de représenter les modifications à l’aide de symboles graphiques étalés sur plusieurs années, c’est-à-dire les segments linéaires reliant les points de données du tracé.
Étant donné que la couleur est très utile pour distinguer les pays et qu’elle n’est pas aussi efficace pour indiquer des variables quantitatives, nous ne disposons que de deux autres caractéristiques pouvant être modifiées pour indiquer un changement: le style et l’épaisseur des segments. Étant donné que votre thèse concerne les changements positifs, vous souhaiterez mettre davantage en évidence les segments de droite pour les augmentations: leurs styles doivent être plus continus et plus épais.
Enfin, votre thèse concerne les données postérieures à 1932. Nous voudrons souligner ces éléments du graphique par rapport aux autres. Cela peut être fait en saturant la couleur.
Cette solution fournit immédiatement des informations qui n'étaient pas apparentes dans l'original:
Aucun pays n'a connu d'augmentation annuelle du taux de mortalité pour toutes les années postérieures à 1932. Un tel pays apparaîtrait sous la forme d'une ligne continue, mais cette ligne n'existe pas.
Une grande partie du changement devrait être attribuée à des facteurs communs à tous les pays. Cela est évident dans les similitudes de style de trait et d'épaisseur au sein des colonnes verticales. Par exemple, au cours de la période 1934-1935, les taux de mortalité ont augmenté dans presque tous les pays, où ils ont diminué en 1933-1934 dans presque tous les pays.
L’Allemagne a eu la particularité de connaître une forte augmentation du taux de mortalité en 1932-1933, ainsi qu’une légère augmentation en 1935-1936.
Ceux-ci suggèrent de procéder à une exploration bidirectionnelle robuste du changement du taux de mortalité par pays, peut-être par polissage médian, afin de pénétrer plus profondément dans la performance relative des pays européens au cours de cette période.
Si vous souhaitez souligner uniquement la différence entre 1937 et 1932, une technique similaire peut être utilisée pour symboliser les portions de chemins situées entre ces dates. L'Allemagne se démarquerait:
la source
Slopegraphs
Une façon de présenter vos données consiste à utiliser un slopegraph, particulièrement utile pour comparer les modifications ou les gradients (certains liens: 1 2 ).
Ci-dessous est
Sur la gauche, un exemple de slopegraph qui montre à quoi cela ressemble pour votre cas.
Au centre un slopegraph plus complexe qui montre également l'année 1932
A droite, une variante du slopegraph, plus une sorte de sparklines, où toutes les données sont affichées (c'est-à-dire sans lignes droites).
Je ne sais pas lequel est le meilleur. La troisième option / droite donne une idée plus précise des variations d’une année à l’autre (par exemple, il devient plus évident que le Danmark par rapport à l’Allemagne ne soit pas si différent et qu’il varie beaucoup d’une année à l’autre), mais cela peut se produire. aussi être distrayant (surtout le pic de 1929). La meilleure solution dépend donc de ce que vous voulez exprimer avec le graphique et du niveau de détail requis par votre récit (par exemple, le tournant autour de 1932 avec le gouvernement différent, ce qui est plus clair dans la deuxième / solution intermédiaire).
La variation du slopegraph à droite ressemble beaucoup au graphique de Xan. Cependant, outre les différences stylistiques, il existe une autre différence importante. La largeur et la hauteur de la figure sont choisies de telle sorte que l'angle des courbes soit proche de 45 degrés. De cette manière, les différences sont plus saillantes (je crois que le meilleur exemple est l'exemple de la tache solaire d'Edward Tufte ).
Plus de contexte
Si vous voulez ajouter plus de complexité que le simple slopegraph, alors je pense qu’il est préférable de montrer plus de données en dehors de la plage 1927-1937 à l’intérieur de la plage. (encore un exemple de Tufte des pages 74 à 75 dans L'affichage visuel d'informations quantitatives, vous pouvez y accéder via cette page sur le babillard de son site Web)
L'exemple ci - dessous présente les données pour les années 1900-2000 (hors Pologne dont les données sont un peu difficile) extrait de wikipedia (par exemple cette page pour la République tchèque ) et pour la Suisse et les Pays - Bas leurs bureaux nationaux de statistique ( BFS et Statline ).
(Les données sont un peu différentes des vôtres mais identiques à celles de l'article "Autarcie, désintégration des marchés et santé: la mortalité et la crise nutritionnelle dans l'Allemagne nazie, 1933-1937" de Jörg Baten et Andrea Wagner. Cet article est intéressant. A lire car ils fournissent beaucoup plus de données que des taux de mortalité bruts, bien qu'ils se limitent également à une petite période. Il est particulièrement intéressant de noter que la hausse du taux de mortalité, de 1932 à 1937, a principalement existé entre les villes d'une bande de Francfort à Brême. et Hambourg)
Je pense que ce graphique est important car il montre que l'Allemagne a enregistré une très forte baisse avant la hausse après 1932. Plus forte que d'autres pays. Vous pouvez donc avoir des interprétations négatives et positives. Le taux de mortalité en Allemagne a augmenté davantage que les autres pays entre 1932 et 1937, mais s'agissait-il (1) d'un éloignement d'un sommet bas, ou (2) d'un essor vers un sommet élevé? Un aspect intéressant à cet égard est que le niveau de 1932 de 1932 est un niveau très bas pour l'Allemagne (à ce stade, seul le taux de mortalité était bas aux Pays-Bas). Ce n'est pas seulement le niveau le plus bas pour les années jusqu'en 1937, mais il faut aussi jusqu'en 1995 pour atteindre à nouveau ce niveau de 10,8.
Autre point, lié à la santé (si tel est votre contexte), il serait peut-être préférable de comparer l'espérance de vie, la composition démographique de la population ayant une influence sur le taux de mortalité, indépendamment de l'évolution de la situation sanitaire.
Un peu moins de contexte supplémentaire
Le graphique ci-dessus montre la totalité, mais peut être exagéré pour la plupart des buts (sauf dans ce post où je voulais montrer toute l'histoire et c'est plus à des fins exploratoires). Le graphique ci-dessous est une alternative qui, à mon avis, reste décente.
la source
Cela dépend du public, mais je simplifierais les choses:
Ensuite, épelez-le dans la légende, par exemple
(BTW qu'est-ce que ch vs cz, c'est-à-dire quel pays me manque plus haut?)
Pour être approfondi, vous devrez bien sûr pondérer la
death rate
population par une estimation de la population lorsque vous la "mettez en commun" pour les "Autres", mais je suis sûr que cette information vous est facilement accessible.Mise à jour du 6/9/18: Il s’agit bien entendu d’une esquisse "jouet" qui n’a pas été déduite des données; L'idée est de fournir un brouillon de la forme que devrait prendre un graphique.
ou mieux, si vous avez des informations sur la population. pour chaque année:
Selon le lectorat (par exemple les épidémiologistes par rapport aux historiens), un écart-type ou une erreur-type pourrait être ajouté à cette dernière, bien que je pense que cela gâcherait plutôt l'aspect simple de l'intrigue.
la source
ch
est la Suisse. (Et d'ailleurs, ce n'était pas encore la République tchèque dans les années 30.) - Ce que je n'aime pas dans votre approche, c'est qu'il n'est pas clair que la tendance à la baisse soit constante dans les autres pays. Il pourrait sembler qu'il y ait des fluctuations aléatoires qui se situent en moyenne dans les autres pays, mais positives en Allemagne.Si vous souhaitez mettre en surbrillance le changement, calculez peut-être ceci et affichez-le. L'utilisation d'une carte thermique pour afficher les modifications peut s'avérer utile car elle permet d'effectuer des comparaisons sans problèmes de sur-traçage et d'éviter les problèmes d'interpolation pouvant provenir de graphiques à courbes.
En utilisant vos données comme
d
dans R:Notez que les données sont maintenant différentes de celles de l'année précédente. Vous pouvez voir que l'Allemagne a un groupe de blues (augmentation du taux de mortalité) après 1932 que les autres pays n'ont pas. Vous pouvez également constater qu'entre 1934 et 1935, tous les pays, à l'exception de la Pologne, ont vu leur taux de mortalité augmenter, mais l'Allemagne semble connaître une tendance à la baisse entre 1932-1933 et 1935-1936 (ainsi que 1927-1928).
Une caractéristique intéressante est le fait que les couleurs sont plus intenses à gauche par rapport à droite. Cela signifie que l'ampleur des changements était plus élevée au début de la période et plus modérée vers la fin.
Je recommanderais de jumeler ceci avec un graphique linéaire montrant également les niveaux.
la source
Je vous montre ici la différence du logarithme du taux de mortalité pour 1000 habitants par rapport à l'année précédente (donc 1927 n'est pas indiqué). L'Allemagne est indiquée en rouge tandis que la moyenne des autres pays est indiquée en trait noir épais.
Le ratio a augmenté en Allemagne 5 années sur 10. Après 1932, il se situait au-dessus de la moyenne des autres pays (et principalement positive), jusqu'en 1937.
Bien que pourquoi le logarithme? La raison est simple: le passage de 2 à 1 est plus radical que le passage de 1000 à 999 :)
Code:
la source
Une version supplémentaire: ratios (taux de mortalité moyen de 1927 à l'année en cours) / (taux de mortalité 1927)
Fait avec le code Mathematica
(Les pics de 1929 semblent être liés à une pandémie de grippe survenue à cette époque)
la source