Je fais habituellement mes propres choix idiosyncratiques lors de la préparation des parcelles. Cependant, je me demande s'il existe des meilleures pratiques pour générer des parcelles.
Remarque: le commentaire de Rob sur la réponse à cette question est très pertinent ici.
data-visualization
references
utilisateur28
la source
la source
SO
: stackoverflow.com/questions/6973394/…Nous pourrions rester ici toute la journée en indiquant les meilleures pratiques, mais vous devriez commencer par lire Tufte. Ma recommandation principale:
Rester simple.
Souvent, les gens essaient de charger leurs graphiques avec des informations. Mais vous devriez vraiment avoir juste une idée principale que vous essayez de transmettre et si quelqu'un ne reçoit pas votre message presque immédiatement, alors vous devriez repenser la façon dont vous l'avez présenté. Donc, ne commencez pas à travailler sur votre graphique tant que le message n'est pas clair. Le rasoir d'Occam s'applique ici aussi.
la source
Une règle empirique que je ne suis pas toujours mais qui est parfois utile est de prendre en compte le fait que votre intrigue sera probablement à un moment donné dans son avenir.
Vous devez essayer de rendre vos parcelles suffisamment claires pour que, même si elles sont reproduites de manière imprécise dans le futur, les informations que la parcelle tente de transmettre sont toujours lisibles.
la source
En plus de transmettre un message clair, j'essaie toujours de me souvenir de la complicité:
J'ai configuré mon logiciel de traçage (matplotlib, ROOT ou root2matplotlib) pour appliquer la plupart de ces droits par défaut. Avant j'utilisais
gnuplot
qui avait besoin de soins supplémentaires ici.la source
Dans le domaine de la physique, il est de règle que l’ensemble du document / rapport ne doit être compréhensible qu’après un rapide aperçu des graphiques. Donc, je conseillerais principalement qu'ils devraient s'expliquer d'eux-mêmes.
Cela implique également que vous deviez toujours vérifier si votre public est au courant d'un type de complot. J'avais commis une grosse erreur en supposant que chaque scientifique savait ce que sont les boîtes à moustaches, puis j'ai perdu une heure pour l'expliquer.
la source
Voici mes directives, basées sur les erreurs les plus courantes que je vois (en plus de tous les autres points positifs mentionnés)
la source
Jetez un coup d'œil à la bibliothèque graphique R, ggplot2. Les détails se trouvent sur la page Web http://had.co.nz/ggplot2/. Ce paquet génère de très bons tracés par défaut, qui respectent les principes de Tufte, les directives de Cleveland et le paquet de couleurs de Ihaka.
la source
Si vous tracez une couleur, considérez que les daltoniens peuvent avoir du mal à distinguer les éléments uniquement par la couleur. Alors:
la source
Ce sont des suggestions merveilleuses. Nous avons rassemblé de nombreux documents sur http://biostat.mc.vanderbilt.edu/StatGraphCourse . Un groupe de statisticiens du secteur pharmaceutique, du monde universitaire et de la FDA créent également une ressource qui sera très utile pour les essais cliniques et la recherche connexe. Beaucoup de nouveau matériel sera dévoilé dans un mois, mais il en existe déjà beaucoup - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Mon livre graphique préféré est Elements of Graphing Data de William Cleveland.
En termes de logiciels, à mon avis, il est difficile de battre les paquets ggplot2 et lattice de R. Stata prend également en charge d'excellents graphiques.
la source
Cela dépend également de l'endroit où vous souhaitez publier vos parcelles. Vous épargnerez beaucoup de peine en consultant le guide de l'auteur avant de créer des parcelles pour un journal.
Enregistrez également les parcelles dans un format facile à modifier ou enregistrez le code que vous avez utilisé pour les créer. Les chances sont que vous devez faire des corrections.
la source
N'utilisez pas de parcelles de dynamite: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , utilisez des parcelles de violon ou similaires (famille de boîtes à moustaches)
la source
Les autres réponses sont trop théoriques pour être convaincantes, alors laissez-moi vous donner une réponse plus générale. J'ai eu du mal avec cette question pendant un moment. J'offre ce processus:
Je suis sceptique quant aux revendications globales telles que "Keep it simple" - qu'est-ce que cela signifie? Eh bien, cela dépend du public. Certains publics dévoreront le style Tufte. Mais certains publics apprécient de temps en temps un peu de tableau désordonné. Certaines personnes s'ennuient à cause des nuages de points. Certaines personnes aiment les arrière-plans colorés. Est-ce si mal de les engager un peu même si vous compromettez la pureté "esthétique"? C'est à vous de décider.
La réaction de votre public sera un retour important, mais pas le seul. Si vous trouvez un moyen de mesurer leur compréhension avant et après votre présentation, vous commencerez à comprendre l'impact que vous avez eu.
La "bonne" réponse dépendra de ce type de questions:
Quel média utiliserez-vous?
Créez-vous des graphiques statiques ou interactifs?
Essayez-vous de raconter une histoire prédéfinie ou d'encourager l'expérimentation (exploration)?
Dans quelle mesure voulez-vous que le public tire ses propres conclusions?
Dans quelle mesure voulez-vous que le public suive et soit convaincu par votre histoire?
Dans quelle mesure voulez-vous que le public conteste vos conclusions?
En résumé, concevez délibérément vos supports en fonction de votre message, de votre public et de vos contraintes.
la source
Il me semble que Tufte a mentionné une chose qui ne figure pas dans les autres réponses est la cartographie - c’est-à-dire que la position, la direction, la taille, etc., sur votre graphique représentent la réalité . Ce qui est sur le graphique devrait être dans le monde réel. Ce qui est gros devrait être grand (en gardant à l'esprit que les zones doivent représenter des zones et des volumes. N'essayez jamais de représenter une valeur scalaire par une zone, c'est très ambigu!). Cela vaut également pour les couleurs, les formes, etc., si elles sont pertinentes.
Un exemple intéressant est le graphique de la "série de jupes" ici: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Bien que techniquement, c’est correct et que la longueur d'une jupe "plus grande" occupe une position plus haute sur le graphique, c'est en fait assez déroutant, car la longueur de la jupe commence du haut et descend (contrairement aux humains ou aux arbres, où nous mesurons la hauteur sol). Ainsi, la longueur accrue de la jupe représente en réalité une valeur inférieure :
Comme toujours, il y a des difficultés. Par exemple, nous considérons généralement le temps nécessaire pour avancer et, à l'ouest, au moins, nous lisons de gauche à droite; nos graphiques de séries chronologiques s'écoulent donc généralement de gauche à droite à mesure que le temps augmente. Alors que se passe-t-il si vous voulez représenter quelque chose qui est le mieux représenté latéralement (par exemple, des mesures est-ouest de quelque chose), dans le temps? Dans ce cas, vous devez faire des compromis et soit représenter le temps d'un mouvement ascendant ou descendant (ce qui dépend à nouveau de perceptions culturelles, je suppose), soit choisir de mapper votre variable latérale vers le haut / bas de votre graphique.
la source
Cela dépend de la manière dont les parcelles seront discutées.
Par exemple, si j'envoie des parcelles pour une réunion de groupe avec des appelants de différents endroits, je préfère les regrouper dans Powerpoint plutôt que dans Excel, il est donc plus facile de les inverser.
Pour les appels techniques individuels, je vais mettre quelque chose dans Excel pour que le client puisse déplacer un tracé et voir les données brutes. Ou bien, je peux entrer des valeurs p dans les cellules le long des coefficients de régression, par exemple
N'oubliez pas que les parcelles sont peu coûteuses, en particulier pour les diaporamas ou pour l'envoi par courrier électronique à un groupe. Je préférerais faire 10 tracés clairs que nous pouvons parcourir, plutôt que 5 tracés où j'essaie de mettre des cohortes distinctes (par exemple, "hommes et femmes") sur le même graphique.
la source
J'ajouterais que le choix du graphique devrait refléter le type de test statistique utilisé pour analyser les données. En d'autres termes, quelles que soient les caractéristiques des données utilisées pour l'analyse, vous devez les afficher visuellement. Vous devez donc indiquer les moyennes et les erreurs types si vous utilisez un test t mais des diagrammes à boîtes si vous utilisez un test de Mann-Whitney.
la source