Combien de variables puis-je représenter graphiquement avant de perdre en clarté?

14

Voyons voir si je peux expliquer cette question d' économie graphique que j'ai correctement. Je suis nouveau dans le domaine et il vaut la peine de mentionner que c'est de la pure curiosité, et mes exemples sont - comme vous pourrez bientôt le dire - complètement inventés.

Combien de variables puis-je représenter graphiquement avant que mon graphique ne perde la qualité de la communication? Supposons que mon public soit, par exemple, des lecteurs de journaux du dimanche.

Supposons que j'ai cet ensemble: poids (x) / âge (y) et deux individus: Jane, 10 ans, 30 kg; et Joe, 20 ans, 60 kg. La représentation graphique pourrait ressembler à ceci:

entrez la description de l'image ici entrez la description de l'image ici

Maintenant, je sais que je peux ajouter une autre variable en utilisant la taille des cercles, donc si je veux ajouter une représentation du nombre de hamburgers que Jane et Joe mangent par semaine (10 et 20, respectivement), je pourrais avoir quelque chose comme:

entrez la description de l'image ici entrez la description de l'image ici

Et je peux même utiliser la forme ou la couleur + la taille pour ajouter une quatrième variable, par exemple s'ils mangent plus de cheeseburgers que de burgers de bœuf (la limitation ici est que le type de burger est un booléen, avec seulement deux valeurs possibles), mais de toute façon:

entrez la description de l'image ici entrez la description de l'image ici

Et c'est là que je pense que ça commence à devenir désordonné. L'ajout de formes au combo pour représenter une cinquième variable risquerait la «facilité de compréhension» du graphique. Quand je regarde le graphique, mon cerveau (particulier) ne traite que 2 ou 3 variables, pas plus. Mangent-ils des combos ou juste des hamburgers, par exemple?:

entrez la description de l'image ici entrez la description de l'image ici

J'ai pensé à peut-être une 3ème dimension, mais ça aurait l'air terrible. Je pense peut-être à cela de manière complètement erronée, et il y a des chances que je manque quelque chose de très évident ici que je ne peux pas saisir (par exemple, si essayer de représenter plus de 3 ou 4 variables est tout simplement faux comme pratique), mais en arrière à ma (mes) question (s):

  • 4 (peut-être 5 si le graphique est très simple comme le mien) est-il un nombre raisonnable pour les variables maximales représentées en même temps dans un graphique à deux axes?

  • Existe-t-il d'autres types de graphiques qui permettent plus de variables sans perdre en clarté?

  • Existe-t-il un bon exemple de graphique qui représente avec succès un grand nombre de variables?

Yisela
la source

Réponses:

14

Edit III: J'ai trouvé un exemple immensément magnifique de visualisation de données quantitatives multivariées et j'ai dû l'ajouter. Vous le trouverez sous la rubrique "Edit III (lauréats du prix Nobel)".

Edit II: il y a eu un petit malentendu, et j'ai édité pour essayer de clarifier la façon dont j'interprète l'utilisation prévue des données. J'ai remplacé deux images et ajouté une section "Voulez-vous des frites avec ça?"


Les graphiques révèlent des données.

Edward Tufte:

L'encombrement et la confusion sont des échecs de conception et non des attributs de l'information. L'encombrement appelle une solution de conception, pas une réduction de contenu. Très souvent, plus les détails sont intenses, plus la clarté et la compréhension sont grandes, car le sens et le raisonnement sont CONTEXTUELLEMENT implacables. Moins est un ennui.

Pourquoi visualisons-nous des données?

  • Outils de réflexion
  • Pour montrer le résultat d'une vision intense
  • Comprendre un problème, prendre une décision
  • Afficher les comparaisons, montrer la causalité
  • Fournir des raisons de croire

Comment?

  • montrer les données
  • inciter le spectateur à penser à la substance plutôt qu'à la méthodologie, la conception graphique, la technologie de production graphique ou autre
  • éviter de déformer ce que les données ont à dire
  • présenter de nombreux nombres dans un petit espace
  • rendre les grands ensembles de données cohérents
  • encourager l'œil à comparer différents éléments de données
  • révéler les données à plusieurs niveaux de détail, d'un large aperçu à la structure fine.
  • servir un objectif raisonnablement clair: description, exploration, tabulation ou décoration.
  • être étroitement intégré aux descriptions statistiques et verbales d'un ensemble de données.

Quelques définitions:

Les données:

est généralement considéré comme "des trucs qui sont triés dans des bases de données". Cela peut bien sûr être des nombres, des images, du son, de la vidéo etc. Les données sont ce qui est collectable, souvent quantitatif. Dans sa forme la plus crue, il est difficile à digérer; juste des murs de chiffres. Tu sais; la matrice . D'une manière générale, nous n'avons pas de bases de données massives composées de zéros, pour tout ce que nous n'avons pas , même si parfois ce que nous n'avons pas est le plus informatif . Donc , pour voir ce que nous n'avons pas, nous avons besoin de visualiser ce que nous n'avons.

Information:

est ce que vous pouvez extraire des données . En affichant les données d'une manière ou d'une autre, nous pouvons glaner des informations . L'un des exemples que j'utilise souvent est que si je vous donne une liste des pays du monde et vous dis que deux d'entre eux sont manquants, il est très peu probable que vous les trouviez sur la base de cette liste. Cependant, si j'affiche cela en coloriant tous les pays que j'ai sur une carte, vous verrez instantanément que j'ai omis la République centrafricaine et la Nouvelle-Calédonie. Il s'agit de "réduire le bruit" et de raconter une histoire de la manière la plus efficace possible.

Infographies et visualisations de données:

J'hésite à appeler votre exemple d'infographie. Je sais que cela est souvent considéré comme synonyme de visualisation de données, de conception d'informations ou d'architecture d'informations, mais je ne suis pas d'accord. Les infographies - pour moi - sont une série de graphiques, de diagrammes et d' illustrations qui pourraient bien contenir un tas de déclarations biaisées sur la façon de lire les données. Il est moins objectif, plus enclin à sauter des données qui ne sont pas dans "l'intérêt" du créateur: vous êtes guidé vers une conclusion que quelqu'un a prédéfinie. Ils ont une valeur de divertissement, et ils ont souvent une utilisation écrasante d'illustrations qui enlèvent une certaine concentration aux données. C'est bien, mais je pense que nous devrions différencier un peu.

Exemples

Big Data:

Gardez à l'esprit que le Big Data n'est pas la même chose que les données complexes. Beaucoup de données peuvent être tout à fait les mêmes, comme cette carte LinkedIn: les données de base sont les mêmes, mais il existe des filtres (par marquage). Il y a deux variables: la géographie et une sorte de tag définissant les gens dans les professions / intérêts / relations. Une quantité insensée de données; mais seulement deux variables.

entrez la description de l'image ici

Multivariable:

Voici un exemple de visualisation multivariable des données. Voici le tableau de Charles Minard de 1869 montrant le nombre d'hommes dans l'armée de campagne russe de Napoléon en 1812, leurs mouvements, ainsi que la température qu'ils ont rencontrée sur le chemin du retour. Grande version ici. entrez la description de l'image ici

Il faut un peu de temps pour déchiffrer le code, mais quand vous le faites, c'est magnifique. Les variables couvertes sont:

  • taille de l'armée (nombre de vivants / morts)
  • position géographique
  • direction (est - ouest)
  • Température
  • heure (dates)
  • causalité (mort au combat et de froid)

C'est une quantité incroyable d'informations dans une simple carte bicolore. La partie géographique est stylisée pour laisser de la place aux autres variables, mais nous n'avons aucun problème à l'obtenir.

En voici une plus délicate. Ce sera beaucoup plus facile à lire si vous êtes familier avec les visualisations évolutives de base, les cladogrammes, la phylogénie et les principes de la biogéographie. Gardez à l'esprit qu'il est fait pour les personnes familiarisées avec cela, il s'agit donc d'un tableau scientifique spécialisé. Voici ce qu'elle montre: Une image phylogéographique de lignées de grenouilles venimeuses d'Amérique du Sud. Les cartes à gauche montrent les principales régions biogéographiques au fil du temps et l'image à droite montre les lignées de grenouilles dans le contexte de leurs origines biogéographiques. (Par Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, et al. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], via Wikimedia Commons). Lorsque vous "déchiffrez le code", il est extrêmement informatif.

entrez la description de l'image ici

Petits multiples, sparklines:

Je ne saurais trop insister sur ce point: ne sous-estimez jamais la valeur de la répétition d'informations ou de la diviser en visualisations identiques et distinctes. Tant qu'il est raisonnablement facile de comparer un graphique avec un autre, c'est parfaitement bien. Nous sommes des machines de recherche de motifs. Ceci est souvent appelé petits multiples. Nous avons peu de problèmes à analyser ces images assez rapidement, et tout entasser dans un grand graphique est souvent inutile lorsque dix petites fonctionnent encore mieux:

entrez la description de l'image ici

Un autre:

entrez la description de l'image ici

Et celui qui utilise des graphiques différents mais répétitifs:

entrez la description de l'image ici

Sparklines est un terme inventé par Edward Tufte, et également développé en une bibliothèque javascript entièrement fonctionnelle et entièrement personnalisable. Ce sont essentiellement de minuscules graphiques qui peuvent être insérés dans du texte, en tant que partie du texte et non en tant qu'objet "externe". Voici à quoi ressemble la valeur par défaut: entrez la description de l'image ici

Edit III (lauréats du prix Nobel)

Je n'ai eu qu'à ajouter cette visualisation de données que j'ai trouvée, elle est tout simplement trop bonne: elle montre des lauréats du prix Nobel. Quelle université, quelle faculté, sujet, année, âge, ville natale, si elle était partagée, niveau du diplôme. Belle évidence en effet. Ce sont toutes des données quantifiables. Plus ici.

entrez la description de l'image ici

entrez la description de l'image ici

Vos données

Toutes les questions posées par @Javi sont extrêmement importantes.

Ce que vous essayez de faire, c'est de créer un outil visuel de réflexion. Pour ce faire, vous devez extraire la meilleure qualité de rapport signal / bruit. Ce que vous avez du mal à savoir, c'est comment corréler des données qui ont différentes variables, en informations . Voici une question: qu'est-ce qui doit être approximativement correct et qu'est-ce qui doit être exactement exact? Quel est le but?

Je vais supposer que vous voulez afficher les données sans trop de biais: vous voulez que le lecteur trouve lui-même des corrélations, s'il y a une corrélation. Votre but n'est pas de dire aux gens que les hamburgers sont mauvais pour eux ou que les femmes mangent moins de hamburgers que les hommes, mais de les laisser "voir", si c'est ce que contiennent les données (imaginez si ces trois personnes étaient une famille. Ce serait balancer notre vue sur l'ensemble du graphique de manger des hamburgers un peu).

Votre jeu de données est si petit, vous pouvez simplement tout mettre dans un tableau et ce serait bien. Mais bien sûr, il s'agit de l'idée générale:

Un petit détail: le temps (âge) a tendance à être quelque chose que nous considérons comme horizontal de gauche à droite (chronologies). Pesez quelque chose de haut en bas, donc changer de x - y serait une bonne idée.

1. Quelles sont les entités fixes uniques?

  • Des noms

2. quelles sont les variables variables (eh ..)?

  • poids (kg)
  • Âge (années)
  • Nombre de burgers (entier)
  • Type de hamburgers (entier)

Remarque: vos données sont entièrement constituées d'unités. Comptable, quantifiable chacun sur une échelle mentale distincte. Kilo, âge, poids et chiffres. Et dans le langage des bases de données, leurs noms sont les clés. Lorsque vous commencez à faire des visualisations spatio-temporelles, cela devient un vrai casse-tête. Imaginez que vous devez ajouter le lieu de naissance, la maison actuelle, etc.

Les deux seuls ici qui ont une corrélation sont le nombre de hamburgers et que ce soit ou non un combo. Toutes les autres variables sont indépendantes et une seule est fixe (nom). À un certain point, avec de grands ensembles de données, même les noms deviennent inintéressants et sont remplacés par des données démographiques, d'âge, de sexe ou similaires.

Avec ce petit ensemble de données, vous pouvez obtenir tout cela dans un seul graphique, par exemple comme ceci: entrez la description de l'image ici

Ou vous pouvez modifier le contenu de l'axe et de la bulle de nom:

Note personnelle: Je pense que c'est le meilleur des deux, car le x et le y contiennent les propriétés "physiques" d'un être humain. La variable dans les bulles ici est le nombre de hamburgers.

entrez la description de l'image ici

Vous pouvez également ajouter des graphiques à secteurs en plus du graphique, ou même uniquement des graphiques à secteurs. Personnellement, j'aurais les deux, comme mentionné sur les petits multiples: entrez la description de l'image ici

Voulez-vous des frites avec ça?

Mon hypothèse était que nous voulions également connaître le rapport hamburger / repas. Chaque repas contient un burger. Tous les repas ne sont pas combinés.

  1. voulons-nous seulement savoir si une personne mange parfois des combomeals?
  2. ou voulons-nous savoir combien de repas de hamburger sont également combomeals?

Si 1., un booléen appliqué au nom / clé / id ferait l'affaire.

Jane mange parfois des combomeals? Vrai faux.

Si 2., nous pourrions appliquer un booléen à chaque repas:

1 cheeseburger, combomeal = vrai

1 cheeseburger, combomeal = vrai

1 cheeseburger, combomeal = faux

1 cheeseburger, combomeal = faux

1 cheeseburger, combomeal = faux

1 cheeseburger, combomeal = faux

1 cheeseburger, combomeal = faux

1 steak haché, combomeal = vrai

1 steak haché, combomeal = vrai

1 steak haché, combomeal = faux

C'est très fastidieux, nous pourrions donc le décomposer en:

Jane mange 10 hamburgers. De ceux-ci, trois sont des combos ("voulez-vous des frites avec ça?").

L'un des combomeals est un menu de hamburger.

Deux des combomeals sont le menu cheeseburger.

Les autres sont des hamburgers simples. 5 fromages, deux boeuf.

Ce diagramme était une tentative de visualiser cela. J'ai dans cette version gardé les tranches de tarte pour le rendre plus clair. La chose à ce sujet est qu'il ne serait pas difficile de commencer à appliquer de grands ensembles de données et%: entrez la description de l'image ici

Mais je pense que la meilleure façon est de repenser.

Une autre façon de voir les choses est de le faire vraiment très simplement. Ici, il est plus facile de voir quels groupes d'âge, quels groupes de poids et toutes les données que vous ne "disposez" pas peuvent nous dire. Les données dont vous disposez ne sont pas liées à l'espace, ce sont uniquement des unités (kg, années, chiffres + clé / id / nom):

(Edit: Oeuf sur mon visage: j'ai remplacé ces images par des images plus correctes, en ce qui concerne "tous les repas sont des hamburgers, pas tous les repas sont combinés")

entrez la description de l'image ici Ce serait assez facile à développer avec plus de personnes:

entrez la description de l'image ici Ou, encore mieux, si vous comparez les groupes d'âge de 10, 20 et 30 ans, vous pourriez faire une visualisation statistique assez simple à lire:

entrez la description de l'image ici

..Et juste pour être aussi clair que possible; voici un exemple de cette façon de penser. Ce graphique montre les survivants du Titanic, ratio équipage, classe, hommes, femmes. entrez la description de l'image ici

Il y aura de nombreuses autres solutions, ce ne sont que quelques réflexions.

Je pourrais continuer encore et encore, mais maintenant je me suis épuisé et probablement tout le monde.

Outils pour jouer avec:

gephi

Gapminder Voir cette phénoménale présentation TED par Hans Rosling - love that guy

Graphiques Google

somvis

Raphaël

Exposition du MIT (anciennement Similie)

d3

Highcharts

Lectures complémentaires:

PJ Onori; En défense de dur

Edward Tufte: de belles preuves

Edward Tufte: Visionner des informations

Edward Tufte: L'affichage visuel d'informations quantitatives

Explications visuelles: images et quantités, preuves et récit

Homme, Alan., 2007 Illustration une perspective théorique et contextuelle Lausanne, Suisse; New York, NY: AVA Academia

Isles, C. & Roberts, R., 1997. En lumière visible, photographie et classification dans l'art, la science et le quotidien, Museum of modern art Oxford.

Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Lectures en visualisation de l'information: utiliser la vision pour penser 1ère éd., Morgan Kaufmann.

Grafton, A. et Rosenberg, D., 2010. Cartographies du temps: une histoire de la chronologie, Princeton Architectural Press.

Lima, M., 2011. Complexité visuelle: Mapping Patterns of Information, Princeton Architectural Press.

Bounford, T., 2000. Diagrammes numériques: comment concevoir et présenter efficacement des informations statistiques 0 éd., Watson-Guptill.

Steele, J. & Iliinsky, N. eds., 2010. Beautiful Visualization: Looking at Data through the Eyes of Experts 1ère éd., O'Reilly Media.

Gleick, J., 2011. L'information: une histoire, une théorie, un déluge, Panthéon

benteh
la source
J'ai tout lu, mais cela prendra des semaines à absorber. Vous devriez écrire un livre!
Joshua Frank
Pour l'image du prix Nobel, savez-vous comment ils l'ont fait? Ces rubans fluides sont tout simplement magnifiques.
Joshua Frank
Non, je ne sais pas exactement comment elle a réussi, mais Giorgia Lupi a répondu très rapidement à d'autres questions, vous pouvez donc simplement lui poser la question giorgialupi.net
benteh
Hé, bonne idée. Je lui ai juste envoyé un e-mail.
Joshua Frank
2
Vous méritez un prix novell pour cette réponse n_n
Rafael
5

Je pense qu'il y a quelques questions supplémentaires qui pourraient affiner votre recherche de la clé pour représenter les données auprès de votre public. Je pense à eux un peu comme restreindre votre CV à un emploi spécifique que vous souhaitez.

  1. Pourquoi créez-vous une infographie.
  2. Quel est l'objectif ou le résultat net que vous souhaitez que votre public connaisse à propos de vos données.
  3. Que savez-vous de votre public et comment sont-ils liés aux données? (Âge démographique, sexe, géolocalisation, poids, etc.)
  4. Quelle est la donnée la plus importante et la moins importante que vous allez montrer et la différence entre elles.
  5. Quel support / contexte afficherez-vous vos données pour obtenir au mieux votre objectif "net" de les créer en premier lieu? Par exemple, s'agira-t-il d'une représentation numérique de données ou physique (pensez aux fèves à la gelée dans un pot si votre public cible est des enfants). Sera-ce pour une réunion de bureau ou une entreprise commerciale?
  6. Les données peuvent-elles être divisées en différentes infographies tout en conservant l'intégrité de votre objectif de création?

Vos données et votre objectif doivent dicter les termes de ce que vous devez montrer et ne pas montrer. Par exemple, à quel point serait-il important de montrer un graphique de ce que les gens ont commandé chez McDonald's un mardi entre 13 h et 15 h, alors que votre objectif était simplement de montrer la comparaison de ce que les gens ont commandé en général. La variable de temps n'est pas nécessaire, même si nous avons les données brutes pour elle. Ce n'était pas notre objectif.

Pour répondre spécifiquement à vos questions. Personnellement, je pense (subjectif) que lorsque vous avez dépassé l'utilisation de trois variables / 4 (taille, forme, couleur, position) dans un tableau de base comme celui-ci, le lecteur (moi) s'ennuie / se perd et s'ennuie / se perd n'est probablement pas le raison pour laquelle le graphique a été créé. Cependant, ils peuvent être totalement amusants et vraiment impliquer le public. Par exemple, quelque chose comme ça s'oppose à ça . Je n'écarte pas non plus l'importance du deuxième exemple, car ce serait une infographie vraiment efficace si j'étais à une réunion au bureau montrant des données générales. Cela revient à la question du support et du contexte de présentation des données.

Si vous cherchez des moyens d'afficher des variables dans les données, je vous suggère de rechercher des infographies. Voici une bonne pièce de départ de Smashing Magazine sur la création d'infographies efficaces. Gardez à l'esprit que certains de ces éléments peuvent être subjectifs.

Javi
la source
2

Ceci est une excellente question. Vraiment.

Brillante ligne de pensée à suivre.

Il devrait y avoir une discussion à ce sujet. Mais je le formule légèrement différemment:

**

Combien de propriétés pouvons-nous croiser avec les technologies et le design illustratifs modernes?

**

La réponse réside dans trois aspects de la production: l'affichage, la conception et le mode de présentation ... tous mélangés et pris en compte par des éclaboussures de considération du public.

L'affichage est une chose physique. Avec des limitations de taille, de résolution et d'espace colorimétrique.

Le design est illimité, mais le véritable aspect intéressant de cette question. Comment pouvons-nous exploiter les technologies illustratives modernes et notre compréhension du design et de la créativité pour montrer le mieux possible.

Les modes de présentation sont statiques, dynamiques ou interactifs. Chacun avec ses propres forces et faiblesses, et aggravé par le support, le type et la taille de l'écran.

Et comme Javi le fait remarquer à juste titre, mais ne va peut-être pas assez loin avec ... C'EST TOUT SUBJECTIF! - C'est la touche de considération du public qui prend en compte l'équation. Ou pas.

Confus
la source