Quelles sont les meilleures pratiques à suivre lors de la préparation des parcelles?

40

Je fais habituellement mes propres choix idiosyncratiques lors de la préparation des parcelles. Cependant, je me demande s'il existe des meilleures pratiques pour générer des parcelles.

Remarque: le commentaire de Rob sur la réponse à cette question est très pertinent ici.

utilisateur28
la source

Réponses:

23

Les principes de Tufte sont de très bonnes pratiques lors de la préparation de parcelles. Voir aussi son livre Beautiful Evidence

Les principes comprennent:

  • Maintenir un ratio d'encre de données élevé
  • Supprimer le tableau indésirable
  • Donne plusieurs fonctions à l'élément graphique
  • Gardez à l'esprit la densité de données

Le terme à rechercher est Information Visualization

Peter Smit
la source
4
L'affichage visuel d'informations quantitatives par Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) est meilleur que celui de Beautiful Evidence IMO. Ses quatre livres sont bons, cependant, et si vous avez la possibilité d'assister à l'un de ses cours, faites-le.
Stephen Turner
5
Je suis d'accord avec la plupart des propos de Tufte, mais je dois avouer que ses données sont très basses: les boîtes à moustaches sont tout simplement idiotes. Je pense qu'ils me prennent 3 à 4 fois plus de temps à comprendre que les boîtes à moustaches standard. Les valeurs par défaut de R sont bien meilleures (bien que les lignes aux extrémités des queues ne soient pas nécessaires). Les boîtes à moustaches traditionnelles ont l'avantage supplémentaire de pouvoir représenter la taille de l'échantillon (avec la largeur) et les écarts-types (avec les encoches).
naught101
2
+1 @ naught101 quelques autres partagent cette opinion à SO: stackoverflow.com/questions/6973394/…
Ben
15

Nous pourrions rester ici toute la journée en indiquant les meilleures pratiques, mais vous devriez commencer par lire Tufte. Ma recommandation principale:

Rester simple.

Souvent, les gens essaient de charger leurs graphiques avec des informations. Mais vous devriez vraiment avoir juste une idée principale que vous essayez de transmettre et si quelqu'un ne reçoit pas votre message presque immédiatement, alors vous devriez repenser la façon dont vous l'avez présenté. Donc, ne commencez pas à travailler sur votre graphique tant que le message n'est pas clair. Le rasoir d'Occam s'applique ici aussi.

Shane
la source
1
Je suis d'accord avec la majorité de ce point, mais je pense "Restez simple". pourrait ne pas être clair. Votre point principal est que vous devriez savoir ce que vous voulez que le graphique transmette. "Rester simple." Amène d'autres idées, telles que "Le rapport données / encre doit être élevé", ce que Tufte encourage, et "Ne pas présenter plus de trois variables", ce que Tufte décourage.
Thomas Levine
Clairement, ce conseil est immensément meilleur que l’inverse. Mais il existe des situations dans lesquelles un graphique est nécessairement compliqué et nécessite une étude détaillée, minutieuse et réfléchie. Mais la complication devrait elle-même être aussi simple que possible. Par exemple, 25 parcelles dans une matrice 5 x 5 peuvent nécessiter une étude prolongée, mais il est relativement facile de saisir l’idée que chacune d’elles ne montre que quelques-unes des données.
Nick Cox
12

Une règle empirique que je ne suis pas toujours mais qui est parfois utile est de prendre en compte le fait que votre intrigue sera probablement à un moment donné dans son avenir.

  • envoyé par fax,
  • photocopié et / ou
  • reproduit en noir et blanc.

Vous devez essayer de rendre vos parcelles suffisamment claires pour que, même si elles sont reproduites de manière imprécise dans le futur, les informations que la parcelle tente de transmettre sont toujours lisibles.

Thomas Levine
la source
14
Je pense que vous voulez dire envoyé par fax à un moment dans le passé ;)
hadley le
+1 pour cela. Votre intrigue séminale, le cœur de votre papier, ne doit pas être totalement incompréhensible car je l’ai imprimé.
Fomite
cette réponse répond à un problème similaire.
naught101
8

En plus de transmettre un message clair, j'essaie toujours de me souvenir de la complicité:

  • Les tailles de police pour les étiquettes et les légendes doivent être suffisamment grandes, de préférence identiques à celles utilisées dans la publication finale.
  • la largeur des lignes doit être suffisamment grande (les lignes de 1 pt tendent à disparaître si les parcelles ne sont que légèrement réduites). J'essaie d'aller aux largeurs de ligne de 3 à 5 pt.
  • si vous tracez plusieurs jeux de données / courbes avec des couleurs, assurez-vous qu'ils peuvent être compris s'ils sont imprimés en noir et blanc, par exemple, en utilisant différents symboles ou styles de lignes en plus de la couleur.
  • Utilisez toujours un format sans perte (ou proche de sans perte), par exemple un format vectoriel tel que pdf, ps ou svg ou un fichier png ou gif haute résolution (jpeg ne fonctionne pas du tout et n'a jamais été conçu pour les dessins au trait).
  • préparer des graphiques dans les proportions finales à utiliser dans la publication. Changer le format ultérieurement peut donner des formes de police ou de symbole irritantes.
  • Enlevez toujours le fouillis inutile du programme de traçage comme les informations d'histogramme non utilisées, les courbes de tendance (peu utiles) ou les titres par défaut.

J'ai configuré mon logiciel de traçage (matplotlib, ROOT ou root2matplotlib) pour appliquer la plupart de ces droits par défaut. Avant j'utilisais gnuplotqui avait besoin de soins supplémentaires ici.

Benjamin Bannier
la source
8

Dans le domaine de la physique, il est de règle que l’ensemble du document / rapport ne doit être compréhensible qu’après un rapide aperçu des graphiques. Donc, je conseillerais principalement qu'ils devraient s'expliquer d'eux-mêmes.
Cela implique également que vous deviez toujours vérifier si votre public est au courant d'un type de complot. J'avais commis une grosse erreur en supposant que chaque scientifique savait ce que sont les boîtes à moustaches, puis j'ai perdu une heure pour l'expliquer.

utilisateur88
la source
Sympathies sur l’expérience en boîte à moustaches, mais cela implique (a) l’utilisation d’une variante relativement simple (par exemple, affichage de la médiane, des quartiles, de 5% et de 95% et de tous les points de données au-delà) plutôt que de montrer quoi que ce soit fondé sur la convention 1,5 IQR; (b) l'ajout d'une légende rendant les conventions explicites.
Nick Cox
6

Voici mes directives, basées sur les erreurs les plus courantes que je vois (en plus de tous les autres points positifs mentionnés)

  • Utilisez des graphiques à dispersion, pas des graphiques linéaires, si l'ordre des éléments n'est pas pertinent.
  • Lors de la préparation de parcelles devant être comparées, utilisez le même facteur d'échelle pour toutes.
  • Encore mieux - trouvez un moyen de combiner les données dans un seul graphique (par exemple: les boîtes à moustaches sont meilleures que plusieurs histogrammes pour comparer un grand nombre de distributions).
  • N'oubliez pas de spécifier les unités
  • Utilisez une légende uniquement si vous devez - il est généralement plus clair d’étiqueter directement les courbes.
  • Si vous devez utiliser une légende, déplacez-la à l'intérieur du tracé, dans une zone vide.
  • Pour les graphiques linéaires, visez un format qui génère des lignes approximativement à 45 ° avec la page .
Bossykena
la source
« boxplots sont mieux que plusieurs histogrammes pour comparer un grand nombre de distributions » - ceci est vrai que si vos données sont unimodale, et ne pas kurtosis ou d'autres caractéristiques qui ne peuvent être interceptés par boxplots ..
naught101
6

Jetez un coup d'œil à la bibliothèque graphique R, ggplot2. Les détails se trouvent sur la page Web http://had.co.nz/ggplot2/. Ce paquet génère de très bons tracés par défaut, qui respectent les principes de Tufte, les directives de Cleveland et le paquet de couleurs de Ihaka.

visnut
la source
6

Si vous tracez une couleur, considérez que les daltoniens peuvent avoir du mal à distinguer les éléments uniquement par la couleur. Alors:

  • Utilisez des styles de ligne pour distinguer les lignes.
  • Utilisez un poids supplémentaire dans les éléments, réglez la largeur de ligne sur au moins 2 points, etc.
  • Utilisez différents marqueurs ainsi que des couleurs pour distinguer les points.
  • Utilisez des étiquettes et des annotations, en vous référant à la position et au style.
  • Lorsque vous faites référence à des éléments de tracé dans un texte, décrivez-les par couleur, position relative et style: "la courbe rouge, supérieure, tiret-point"
  • Utilisez une palette adaptée aux daltoniens. Voir http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet . J'ai une simple implémentation python de la palette dans la dernière référence de code.google.com, recherchez python-cudtools
Andrej Panjkov
la source
Tenez également compte du fait que quelqu'un pourrait devoir l'imprimer sur une imprimante en niveaux de gris. Je l'ai déjà fait auparavant - j'ai utilisé les couleurs par défaut de ggplot2 (qui ont fière allure sur un écran) pour un travail, que j'ai ensuite imprimé en noir et blanc, et la moitié des couleurs ne pouvait pas être distinguée des autres! * blush *
naught101
4

Ce sont des suggestions merveilleuses. Nous avons rassemblé de nombreux documents sur http://biostat.mc.vanderbilt.edu/StatGraphCourse . Un groupe de statisticiens du secteur pharmaceutique, du monde universitaire et de la FDA créent également une ressource qui sera très utile pour les essais cliniques et la recherche connexe. Beaucoup de nouveau matériel sera dévoilé dans un mois, mais il en existe déjà beaucoup - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Mon livre graphique préféré est Elements of Graphing Data de William Cleveland.

En termes de logiciels, à mon avis, il est difficile de battre les paquets ggplot2 et lattice de R. Stata prend également en charge d'excellents graphiques.

Frank Harrell
la source
3

Cela dépend également de l'endroit où vous souhaitez publier vos parcelles. Vous épargnerez beaucoup de peine en consultant le guide de l'auteur avant de créer des parcelles pour un journal.

Enregistrez également les parcelles dans un format facile à modifier ou enregistrez le code que vous avez utilisé pour les créer. Les chances sont que vous devez faire des corrections.

Matti Pastell
la source
2

Les autres réponses sont trop théoriques pour être convaincantes, alors laissez-moi vous donner une réponse plus générale. J'ai eu du mal avec cette question pendant un moment. J'offre ce processus:

  1. Connaissez votre message
  2. Connaissez votre public
  3. Connaissez vos contraintes
  4. Adaptez votre message à votre public en fonction de vos contraintes

Je suis sceptique quant aux revendications globales telles que "Keep it simple" - qu'est-ce que cela signifie? Eh bien, cela dépend du public. Certains publics dévoreront le style Tufte. Mais certains publics apprécient de temps en temps un peu de tableau désordonné. Certaines personnes s'ennuient à cause des nuages ​​de points. Certaines personnes aiment les arrière-plans colorés. Est-ce si mal de les engager un peu même si vous compromettez la pureté "esthétique"? C'est à vous de décider.

La réaction de votre public sera un retour important, mais pas le seul. Si vous trouvez un moyen de mesurer leur compréhension avant et après votre présentation, vous commencerez à comprendre l'impact que vous avez eu.

La "bonne" réponse dépendra de ce type de questions:

  • Quel média utiliserez-vous?

  • Créez-vous des graphiques statiques ou interactifs?

  • Essayez-vous de raconter une histoire prédéfinie ou d'encourager l'expérimentation (exploration)?

  • Dans quelle mesure voulez-vous que le public tire ses propres conclusions?

  • Dans quelle mesure voulez-vous que le public suive et soit convaincu par votre histoire?

  • Dans quelle mesure voulez-vous que le public conteste vos conclusions?

En résumé, concevez délibérément vos supports en fonction de votre message, de votre public et de vos contraintes.

David J.
la source
"Engager", ou distraire? La couleur peut convenir, mais au final, vous êtes ici au sujet des données, et l’esthétique doit les servir, et non l’inverse.
naught101
2

Il me semble que Tufte a mentionné une chose qui ne figure pas dans les autres réponses est la cartographie - c’est-à-dire que la position, la direction, la taille, etc., sur votre graphique représentent la réalité . Ce qui est sur le graphique devrait être dans le monde réel. Ce qui est gros devrait être grand (en gardant à l'esprit que les zones doivent représenter des zones et des volumes. N'essayez jamais de représenter une valeur scalaire par une zone, c'est très ambigu!). Cela vaut également pour les couleurs, les formes, etc., si elles sont pertinentes.

Un exemple intéressant est le graphique de la "série de jupes" ici: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Bien que techniquement, c’est correct et que la longueur d'une jupe "plus grande" occupe une position plus haute sur le graphique, c'est en fait assez déroutant, car la longueur de la jupe commence du haut et descend (contrairement aux humains ou aux arbres, où nous mesurons la hauteur sol). Ainsi, la longueur accrue de la jupe représente en réalité une valeur inférieure :

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

entrez la description de l'image ici

Comme toujours, il y a des difficultés. Par exemple, nous considérons généralement le temps nécessaire pour avancer et, à l'ouest, au moins, nous lisons de gauche à droite; nos graphiques de séries chronologiques s'écoulent donc généralement de gauche à droite à mesure que le temps augmente. Alors que se passe-t-il si vous voulez représenter quelque chose qui est le mieux représenté latéralement (par exemple, des mesures est-ouest de quelque chose), dans le temps? Dans ce cas, vous devez faire des compromis et soit représenter le temps d'un mouvement ascendant ou descendant (ce qui dépend à nouveau de perceptions culturelles, je suppose), soit choisir de mapper votre variable latérale vers le haut / bas de votre graphique.

compteur101
la source
1
Un exemple de compromis entre temps et espace est donné dans le livre Making Maps (discussion critique et exemples donnés ici) .
Andy W
Bel exemple (horrible)! Les cartes soulèvent un autre compromis plus difficile: essayer de représenter 2 dimensions + le temps sur une page à 2 dimensions (par exemple, des cartes de la dérive des continents). Assez difficile. Mais je suppose que c'est ce que les animations sont pour :)
naught101
Votre exemple éloquent permet de mentionner deux points supplémentaires souvent soulevés. 1. Avec un axe temporel, un titre ou une étiquette du type "Temps" est généralement redondant. 2. Les titres ou les étiquettes tels que "séries" peuvent toujours être améliorés avec une explication concise mais informative, comprenant des unités de mesure le cas échéant.
Nick Cox
1

Cela dépend de la manière dont les parcelles seront discutées.

Par exemple, si j'envoie des parcelles pour une réunion de groupe avec des appelants de différents endroits, je préfère les regrouper dans Powerpoint plutôt que dans Excel, il est donc plus facile de les inverser.

Pour les appels techniques individuels, je vais mettre quelque chose dans Excel pour que le client puisse déplacer un tracé et voir les données brutes. Ou bien, je peux entrer des valeurs p dans les cellules le long des coefficients de régression, par exemple

N'oubliez pas que les parcelles sont peu coûteuses, en particulier pour les diaporamas ou pour l'envoi par courrier électronique à un groupe. Je préférerais faire 10 tracés clairs que nous pouvons parcourir, plutôt que 5 tracés où j'essaie de mettre des cohortes distinctes (par exemple, "hommes et femmes") sur le même graphique.

Baltimark
la source
1

J'ajouterais que le choix du graphique devrait refléter le type de test statistique utilisé pour analyser les données. En d'autres termes, quelles que soient les caractéristiques des données utilisées pour l'analyse, vous devez les afficher visuellement. Vous devez donc indiquer les moyennes et les erreurs types si vous utilisez un test t mais des diagrammes à boîtes si vous utilisez un test de Mann-Whitney.

Freya Harrison
la source