Il existe diverses raisons de connecter les points dans un graphique. Si vous ne montrez qu'une seule catégorie de valeurs (c'est-à-dire s'il y a une ligne, il n'y en aura qu'une), alors la règle du continu par rapport au discret est généralement bonne à respecter. Cependant, même des valeurs discrètes ou catégorielles peuvent être connectées lorsque plusieurs lignes peuvent être nécessaires afin de faciliter le suivi de la variation du motif sur l'axe des x. Le but est de créer une histoire cohérente, et si une ligne rend l'histoire plus sensible ou plus facile à suivre, ajoutez-la. Si cela nuit, supprimez-le.
Dans votre cas, un graphique avec un point pour chaque lot et des heures sur l'axe des x serait très enclin à tracer des lignes reliant les heures pour chaque lot. Et, bien que vous ayez des moyennes en heures, les valeurs de l'axe des x sont mesurées par intervalles et théoriquement continues (toutes les continues peuvent être considérées comme mesurées par intervalles), il y a donc là une justification supplémentaire.
Quant aux bars, comme d'autres affiches l'ont mentionné. Je les évite presque toujours. Un point est généralement préférable, même pour les types de données généralement considérées comme remplies par des barres.
Considérez également que, à moins que les parkings soient de la même taille, le nombre de voitures est trompeur. Un graphique avec une zone fixe et des barres typiques implique que chaque barre représente le même remplissage d'éléments dans l'espace de manière égale. Vous ne résolvez que partiellement ce problème avec les proportions de voitures dans les lots. Une alternative lorsqu'il n'y a qu'une seule période de temps serait d'avoir des barres vides indiquant la taille des lots, puis de les remplir avec le nombre de voitures. Mais cela serait trop complexe lors de la démonstration de plusieurs lots. Les graphiques linéaires de la proportion de remplissage connectés au fil des heures avec une ligne pour chaque lot est la meilleure façon d'aller ici.
À mon humble avis, celui qui a omis pour la première fois le calendrier précis des changements
number of cars
est le premier responsable de tout résultat trompeur. Si vous aviez cette information (même si elle était mesurée avec erreur), cetime
serait une variable continue appropriée, pas nécessairement une variable continue groupée (voir Anderson, 1984). Vous seriez libre de regrouper les observations dans deshour
bacs basés sur si vous le vouliez vraiment, à quel point vous assumeriez la responsabilité de dériver des résultats trompeurs. Sinon, en conservant des heures d'arrivée précises, vous pourriez représenter graphiquementnumber of cars
des séries chronologiquessur continuetime
avec précision.Quoi qu'il en soit, en supposant que vous êtes coincé avec
number of cars
parhour
, Je suis d'accord avec @John, vous devriez tracer une ligne reliant vos observations horaires. Si vous manquez d'informations sur le moment où chaque changement incrémentiel s'est produit, il est plutôt difficile de dire que vous induisez quelqu'un en erreur, sauf si vous ne décrivez pas les limites des informations représentées graphiquement. De même, si vous représentez graphiquement vos données horaires avec un simple graphique à barres sans ligne reliant les bacs, vous n'êtes pas vraiment coupable d'induire en erreur quiconque si vous ne prétendez pas que les changements entre les observations horaires se produisent exactement comme illustré, à l'heure, tout à la fois. Si quelqu'un se méprend (comme cela se produira probablement avec toute statistique ou donnée suffisamment publiée), il ne sera pas vrai que vous l'ayez induit en erreur, surtout si vous décrivez vos données et votre procédure de collecte de manière suffisamment détaillée. Cela ne devrait pas être difficile à faire.Étant donné la clarté et la minutie de base des descriptions de données et de graphiques, il ne devrait y avoir aucun inconvénient à tracer une ligne pour connecter vos bacs. L' avantage de connecter vos bacs est en fait ce que vous semblez être l'inconvénient: tracer ces lignes imite une équation à mi-chemin décente pour le
number of cars
en fonction de continuetime
, même si elle est basée sur des observations horaires discrètes. Vous pouvez utiliser une ligne droite entre les observations pour représenter une hypothèse assez raisonnable que le changement se produit linéairement sur chacunehour
, pas toutes à la fois. Sur la base d'une telle hypothèse, tout lecteur peut faire une estimation décente de ce qui,minute
après une mesure donnéehour
, verra la prochaine voiture arriver ou partir par cette procédure en quatre étapes assez sensée:number of cars
hour
hour
axedistance
de ce point sur l'hour
axe du point de l'observation précédentedistance
distance between observations
minute
après l'hour
arrivée de la prochaine voiture.Bien sûr, on peut également estimer l'arrivée de la prochaine voiture à la seconde près, et vous ne pouvez pas empêcher les lecteurs de le faire en ne fournissant pas la ligne - dessiner la ligne devient simplement la première des cinq étapes. Ainsi, si quelqu'un veut vraiment savoir combien de voitures étaient là dans l'intervalle ... eh bien, ils ne le peuvent pas, car les informations ne sont pas disponibles, mais ils peuvent estimer. Si vous supprimez une étape du processus pour eux, j'imagine qu'ils vous en seront reconnaissants.
Faire cela pour vos lecteurs avec des lignes simples et droites n'implique que votre confort avec l'hypothèse que le changement se produit linéairement entre les observations horaires, ou plus péjorativement, votre désintérêt pour toute inexactitude dans cette hypothèse. Les inexactitudes ne sont pas difficiles à imaginer. Premièrement, le changement se produit nécessairement comme une fonction non linéaire, gonflée par zéro de
time
. Ce n'est pas linéaire car l'événement de changement est ternaire : soit une voiture arrive, part, soit aucune - les voitures n'arrivent pas ou ne partent pas par incréments fractionnaires. Il est gonflé à zéro car la plupart des moments ne verront pas une voiture arriver ou partir. Vous pouvez contourner cela en traitant la ligne comme décrivantprobability
que les voitures arriveront ou partiront à tout moment pour atteindre le nombre entier le plus proche.Une autre inexactitude de l'hypothèse derrière les lignes droites entre les observations horaires subsiste. Vous pouvez vous attendre à ce que le taux de changement (en termes de
probability
comme ci-dessus) change plus en douceur au fil du temps que vos lignes droites tracées séparément entre les points impliquent. En termes plus mathématiques, vous souhaiterez peut-être que la dérivée de votre fonctionnumber of cars
(hour
) soit continue surhour
s. Vous pourriez être en mesure de le faire en adaptant une fonction polynomiale à vos données, mais si votre objectif est prédictif, méfiez-vous dessurajustement.Un autre avantage des lignes par rapport aux barres de style histogramme (c'est-à-dire sans espacement intermédiaire pour les valeurs adjacentes de
hour
... sans parler des graphiques avec des barres qui ne se "touchent" pas) découle de votrelot
variable polytomique . Vous pouvez superposer vos séries chronologiques distinctes pour chaque lot sur le même graphique afin de faciliter les comparaisons, ce qui vous aidera à voir si votrelot
variable est intéressante. Voici une démonstration avec quelques données inventées:Bravo à McCown !
Je ne vais même pas essayer de comprendre comment le faire de manière cohérente avec les barres; Je laisse cela à @ ChristianStade-Schuldt;) Pour être honnête, il est encore plus facile de ne pas connecter ces points comme il l'a suggéré, mais l'ajout de lignes aide à lever l'ambiguïté des points correspondant à des séries chronologiques distinctes les unes des autres. Au final, ça va quand même être un peu subjectif, alors jugez par vous-même:
Pour ma part, je me retrouve à dessiner les lignes dans mon esprit de toute façon. BTW, si vous sentez que les lignes de la première figure nuisent à l'impact visuel des points exacts, n'oubliez pas que vous pouvez toujours augmenter la taille des points, changer leur forme ou présenter leurs valeurs numériquement dans un tableau séparé .
Référence
Anderson, JA (1984). Régression et variables catégorielles ordonnées. Journal de la Royal Statistical Society B, 46 , 1–30.
la source
Une ligne continue indique un continuum. Si des moyennes devaient être tracées, j'envisagerais d'utiliser un diagramme à barres ou un diagramme en escalier. Le traçage de points individuels est également possible, et lorsque des moyennes sont concernées, vous pouvez probablement ajouter des informations sur l'écart-type si nécessaire.
la source
Je ne relierais pas ces points parce que ce sont des valeurs discrètes. Selon la quantité de points de données, vous pouvez utiliser un graphique à colonnes / à barres ou simplement des points.
la source