Remarque: 50 points de données brutes sont désormais attachés.
Je veux afficher la quantité d'études que j'ai faites et le nombre de pages que j'ai complétées au cours de la semaine, réparties par jour, et je l'ai fait comme indiqué ci-dessous:
Des gens m'ont dit qu'ils ne pouvaient pas comprendre les graphiques, mais je ne sais pas comment je peux les afficher autrement. Puisque j'aurais essentiellement besoin de trois dimensions sans faire une représentation cumulative. Je veux éviter d'utiliser de nombreux graphiques linéaires, car après quelques semaines, les graphiques deviendront illisibles. N'y a-t-il rien que je puisse faire?
Comment puis-je les afficher plus clairement?
Date Total Total pages
21/11/2014 2.4166 0
22/11/2014 0 0
23/11/2014 1.5833 4
24/11/2014 3.0166 13
25/11/2014 2.4999 6
26/11/2014 1.4833 3
27/11/2014 3.0499 6
28/11/2014 0 0
29/11/2014 2.4499 5
30/11/2014 2.8833 2
1/12/2014 0 0
2/12/2014 4.1166 8
3/12/2014 1.3333 5
4/12/2014 1.2499 3
5/12/2014 1.6666 8
6/12/2014 0 0
7/12/2014 2.4833 9
29/12/2014 0 0
30/12/2014 1.2332 1
31/12/2014 0.3333 0
1/01/2015 3.5666 2
2/01/2015 0.8166 0
3/01/2015 2.75 28
4/01/2015 0.4166 0
5/01/2015 1.2833 0
6/01/2015 0.3333 3
7/01/2015 0 0
8/01/2015 0 0
9/01/2015 2.35 2
10/01/2015 0.5666 0
11/01/2015 0 0
12/01/2015 1.6666 0
13/01/2015 2.2666 5
14/01/2015 2.5165 6
15/01/2015 2.0166 0
16/01/2015 2.9666 1
17/01/2015 0.8333 0
18/01/2015 0.6666 1
19/01/2015 1.45 0
20/01/2015 0.3166 0
21/01/2015 0 0
22/01/2015 0.2333 0
23/01/2015 0.85 2
24/01/2015 0 0
25/01/2015 0 0
26/01/2015 0.6666 4
27/01/2015 0.8333 1
28/01/2015 1.5498 5
29/01/2015 6.4159 9
30/01/2015 2.9166 0
data-visualization
gung - Réintégrer Monica
la source
la source
Réponses:
Une façon de visualiser les données basées sur la date / le calendrier est via un affichage matriciel qui code les données avec des couleurs. La matrice (ou le tableau) est organisée de sorte que les lignes représentent les semaines et la colonne les jours. Vous pouvez ajouter une dernière colonne pour le total hebdomadaire si cela est souhaitable.
Cela peut être implémenté simplement dans Excel avec une mise en forme conditionnelle si les données sont correctement organisées. En particulier, vous pouvez créer une "grille" de valeurs avec des formules qui recherchent dans vos données d'origine. De là, vous pouvez utiliser la mise en forme conditionnelle pour afficher le résultat.
Voici à quoi pourrait ressembler le résultat. Désolé d'avoir changé le format de la date. La formule dans la cellule H1 est la suivante :
"=IFERROR(VLOOKUP($G$1+$G6*7+H$5, $B$5:$C$16,2,FALSE), 0)"
. Il fait un peu de calcul pour obtenir les jours dans le bon ordre. J'espère que c'est simple.Si vous cherchez vraiment à pousser l'enveloppe, vous pouvez utiliser un cadre comme d3 et son calendrier plugin de pour afficher ces données. Cela pourrait être plus une entreprise qu'elle n'en vaut la peine.
Ce format est très similaire à la façon dont GitHub affiche l'activité / les contributions des utilisateurs au fil du temps. Voici un utilisateur (pas moi!).
la source
La caractéristique principale de l'original est les sommes hebdomadaires. Les valeurs individuelles n'ont de sens qu'après avoir appris les couleurs, et j'imagine que c'est une grande raison pour laquelle l'intrigue ne fonctionne pas pour les nouveaux téléspectateurs. Lié à cela, l'aspect temps des jours est perdu. Un ensemble séquentiel de couleurs peut aider (par exemple, 7 nuances de bleu).
Normalement, je ne me soucie pas d'étiqueter chaque article - les valeurs exactes sont-elles importantes? Le graphique ne fait pas son travail si vous ne pouvez pas l'interpréter sans que chaque valeur soit étiquetée.
À mon essai . Étant donné l'importance apparente des sommes hebdomadaires, j'ai tracé les sommes cumulées hebdomadaires. Il montre les sommes hebdomadaires et les jours dans l'ordre chronologique. Les valeurs de jour exactes sont moins claires, mais les valeurs aberrantes ressortiront toujours.
Pour ces types de petits tracés de ligne (qui pourraient être réduits à la taille du graphique sparkline ), il est utile d'avoir une ligne ou une zone de référence. Pour illustration, j'ai ajouté une plage cible. Si un objectif n'est pas approprié, la référence pourrait être quelque chose comme la plage au cours des trois dernières semaines ou une valeur de référence fixe.
J'ai utilisé du rouge pour indiquer les semaines inférieures à la cible pour une analyse rapide.
Avec beaucoup plus de semaines, vous pouvez les organiser en grille plutôt qu'en liste verticale.
la source
Si je vous comprends bien, la raison pour laquelle vous ne voulez pas utiliser les graphiques linéaires est que vous avez trop de semaines et que les graphiques deviendraient désordonnés.
Si tel est le problème, vous pouvez diviser la série chronologique en composants:
Variation quotidienne
Variation hebdomadaire
Tendance à long terme
Rien d'autre.
William S. Cleveland montre un bel exemple de cela dans l'un de ses livres (je ne suis pas à mon bureau et je ne me souviens pas lequel de ses livres a l'exemple, mais c'est soit Visualizing data or The elements of graphing data ).
R et SAS disposent tous deux d'outils pour ce faire. Avez-vous accès à l'un d'eux?
la source
Je vais d'abord énoncer quelques objections à vos graphiques à barres empilés ou divisés originaux.
une. Le codage couleur apparaît complètement arbitraire. Par conséquent, le graphique ne peut pas être étudié sans aller et venir à plusieurs reprises entre la légende et le graphique.
b. Les zéros sont implicites, en tant que segments de barre invisibles. Les zéros font partie de la variation.
Pour ces raisons et d'autres, les graphiques sont difficiles à décoder.
Cela dit, le graphique a du mérite si l'intérêt est surtout d'étudier la variation des totaux d'une semaine à l'autre. Plusieurs semaines pouvaient être tracées comme autant de barres. L'inconvénient correspondant est qu'il serait de plus en plus difficile d'étudier les variations en quelques semaines.
Sauvegarde: Il y a trois variables ici dans chaque problème.
Temps étudié ou pages complètes.
Jour de la semaine.
Numéro de semaine.
Au fur et à mesure que le nombre de semaines augmente, tout graphique devient plus détaillé. Le défi est de garder ce détail sous contrôle.
Je considérerais un tracé de cycle (d'autres noms ont été utilisés dans la littérature, mais la plupart se réfèrent à son utilisation pour étudier la variation saisonnière). Il y a une introduction lucide ici par Naomi Robbins Ses exemples incluent ceux comme le vôtre où l'intérêt est dans les variations au sein et entre les semaines.
la source
Les graphiques linéaires seraient probablement plus faciles à interpréter si vous preniez une moyenne mobile de sept jours, quatorze jours ou peut-être 28 jours. Cela les lisserait et vous permettrait de repérer les tendances.
Cela présente quelques similitudes avec la solution de Peter Flom, mais est plutôt plus simple et ne donne donc pas une image aussi complète - mais elle pourrait bien suffire à vos besoins. Si vous enregistrez vos données dans une feuille de calcul, cela a l'avantage qu'une telle moyenne peut facilement être effectuée dans la feuille de calcul elle-même en configurant certaines formules, et le graphique sera automatiquement mis à jour lorsque vous remplissez de nouvelles données.
Mettre à jour pour inclure des graphiques
Le graphique de la feuille de calcul pour les moyennes mobiles sur sept jours n'est pas spectaculaire mais semble bien faire son travail - la variation quotidienne est lissée afin que les tendances soient plus faciles à détecter (par rapport au graphique quotidien équivalent qui est si bruyant qu'il est incompréhensible). Certaines caractéristiques clés sont bien identifiées par ce graphique: par exemple, une grande quantité de travail a été effectuée à la mi-janvier, en termes horaires, mais cela ne s'est pas accompagné d'une augmentation proportionnelle du nombre moyen de pages terminées par jour. La pause de Noël est très visible et tant que les points de données individuels sont clairement tracés, ce n'est pas trop trompeur (si seulement la ligne était visible, il serait impossible de déterminer que la période plate était due au manque de données!). Néanmoins, je recommande fortement d' inclure≈ 1,5
Avec seulement cinquante éléments de données, il ne semblait pas utile d'essayer de faire la moyenne sur une plus longue période de temps pour détecter des tendances à plus long terme. De même, je soupçonne que l'excellente idée de Peter Flom de la décomposition saisonnière aurait du mal avec des données aussi limitées. Si vous deviez effectuer la décomposition dans votre feuille de calcul, il serait encore plus important d'inclure la rupture en tant que données nulles.
Pour reproduire mes formules, collez-le de sorte que 'Date' soit dans la cellule
A1
:la source
Si je comprends bien votre question, il serait possible d'afficher les heures et les pages séparément. Je vais le faire en premier. Ensuite, je vais afficher Total et Pages dans un seul tracé. Je suppose que les chiffres réels ne sont pas la chose la plus importante - il est plus important d'avoir un aperçu des semaines et des jours de la semaine, qui ont été productifs et qui ne l'ont pas été. Dans ce cas, je vous suggère de conserver la structure temporelle naturelle car il n'y a en fait qu'une seule dimension temporelle dans vos données. On peut encore trouver un moyen de délimiter les semaines.
J'ai utilisé le code R suivant et le package ggplot2 pour produire ce premier tracé. Vos données ont été chargées dans les données d'objet dans le code ci-dessous. Le graphique est un graphique à barres groupé, les barres grises indiquant les sommes hebdomadaires de pages.
Ce n'est clairement pas parfait. Les barres grises dominent beaucoup car comparées à une barre de jour, elles ont une plus grande surface pour la même quantité de lecture. Nous pourrions les rendre plus minces, mais j'aime la façon dont ils délimitent les semaines. Ils indiquent assez bien quels jours sont dans la même semaine - quelque chose qui ne serait pas nécessairement intelligible autrement. Surtout parce que nous n'avons aucun compte.
Dans l'intrigue suivante, j'ai utilisé le nombre moyen de pages (dans la semaine) comme hauteur de la barre grise.
Cela représente probablement mieux les données. Cependant, notez que les semaines 0 et 7 sont trompeuses car elles ne comprennent pas 7 jours. Vous pouvez facilement contourner ce problème.
Si vous insistez pour afficher simultanément les pages et l'heure, vous pouvez faire un graphique à barres consécutif. Cela peut être un peu déroutant car les deux échelles verticales ne sont pas identiques. D'un autre côté, il pourrait être intéressant de comparer le temps passé et le travail effectué directement comme celui-ci.
EDIT: Réalisant que les couleurs ne sont vraiment pas nécessaires et inspiré par xan (voir les commentaires ci-dessous), vous pouvez simplifier l'intrigue en quelque chose comme ça. J'ai marqué jeudi pour donner un guide visuel supplémentaire. Vous pourriez également plaider en faveur de l'utilisation de la même couleur pour toutes les barres afin de ne pas surestimer certains jours (arbitraires).
Sur une note finale, vous pouvez également essayer de mettre à l'échelle les axes différemment en divisant vos valeurs par la valeur moyenne. Cela ferait de 1 une valeur "normale". Nous pourrions inclure une ligne à 1 pour souligner ce point - maintenant fait sur le tracé dos à dos. Cela sépare les «bons» des «mauvais» jours en termes de charge de travail moyenne.
Sur ce graphique, nous pourrions également nous assurer qu'une unité correspond à la même distance sur les deux axes car elles sont comparables à présent.
Notez également que j'ai foiré les jours dans la première version. J'ai corrigé le code et les tracés et je vais maintenant m'entraîner les sept jours de la semaine.
Le code qui a produit le dernier tracé:
la source
la source
Le graphique ci-dessous montre les heures d'études cumulées et le nombre total de pages au cours de chaque semaine en utilisant des lignes au lieu de barres empilées, ce qui, espérons-le, permettra de voir plus facilement la tendance au cours de chaque semaine et de comparer les semaines. J'ai rempli les semaines manquantes avec des zéros, mais vous pouvez les exclure si vous le souhaitez. Le
R
code pour le traitement des données et la génération du tracé est affiché sous le graphique.En effectuant les étapes ci-dessous, j'ai d'abord chargé les données publiées dans la question dans un bloc de données appelé
dat
.la source
Une autre option est le graphique à bulles, où vous pouvez avoir une hauteur verticale pour une variable et une taille de point pour l'autre. Ci-dessous, la date (jour) est horizontale, les heures étudiées sont verticales, les pages couvertes par jour sont de taille bulle et la semaine est colorée.
la source
Vous pouvez tracer en 3D. Je n'ai pas vérifié que le jour de la semaine était calculé correctement, trouver le meilleur angle de vision, etc., mais cela devrait vous donner l'idée. D'autres embellissements sont également possibles. Par exemple, il pourrait être préférable de connecter les points avec une ligne et de déplacer les lignes de quadrillage pour correspondre à chaque lundi.
En fait, ce qui serait très intéressant à essayer, c'est que chaque quadrillage gauche-droite et haut-bas (comme indiqué dans cet angle) corresponde au même jour de la semaine (par exemple, lundi), puis en plaçant des boîtes à moustaches sur les murs inférieur et arrière droit à l'intérieur le quadrillage. Les boîtes à moustaches correspondraient respectivement au nombre total d'heures et de pages pour chaque semaine. Je suis presque certain que ce serait possible avec rgl, mais cela nécessiterait quelques retouches. Cela en vaut peut-être la peine. Les parcelles de violon ou les haricots peuvent être encore mieux.
Les données (pour la saisie dans R):
Faites l'intrigue:
la source
La carte thermique suivante avec le numéro de semaine (de l'année), le jour de la semaine et les facettes des heures et des pages peut être utile:
La suppression de 2 valeurs élevées donne de meilleurs dégradés de couleurs sur le tracé:
Le diagramme à barres suivant peut également être utile.
Il montre clairement une période de 2 semaines où aucun travail n'a été effectué.
Le tracé avec des lignes peut également être utile (les lignes ne sont pas encombrées; les points peuvent également être supprimés, en ne conservant que deux lignes)
Ils transmettent clairement les informations tout en simplifiant l'intrigue pour une compréhension facile.
la source