Relier les points dans un graphique

8

Étant donné un graphique qui est le produit d'une équation, nous pouvons calculer de manière significative tous les points qui résolvent l'équation, et par conséquent, également une ligne qui passe par les points. La ligne, en tout point, est la réponse.

Mais qu'en est-il des mesures comme «nombre de voitures par heure / parking». Est-il judicieux de connecter les points de chaque mesure horaire? Cela ne nous conduirait-il pas à de faux résultats, ou du moins à des résultats trompeurs, puisque nous ne savons pas combien de voitures y avait-il entre-temps?

data-visualization Quora Feans
la source

8

Il existe diverses raisons de connecter les points dans un graphique. Si vous ne montrez qu'une seule catégorie de valeurs (c'est-à-dire s'il y a une ligne, il n'y en aura qu'une), alors la règle du continu par rapport au discret est généralement bonne à respecter. Cependant, même des valeurs discrètes ou catégorielles peuvent être connectées lorsque plusieurs lignes peuvent être nécessaires afin de faciliter le suivi de la variation du motif sur l'axe des x. Le but est de créer une histoire cohérente, et si une ligne rend l'histoire plus sensible ou plus facile à suivre, ajoutez-la. Si cela nuit, supprimez-le.

Dans votre cas, un graphique avec un point pour chaque lot et des heures sur l'axe des x serait très enclin à tracer des lignes reliant les heures pour chaque lot. Et, bien que vous ayez des moyennes en heures, les valeurs de l'axe des x sont mesurées par intervalles et théoriquement continues (toutes les continues peuvent être considérées comme mesurées par intervalles), il y a donc là une justification supplémentaire.

Quant aux bars, comme d'autres affiches l'ont mentionné. Je les évite presque toujours. Un point est généralement préférable, même pour les types de données généralement considérées comme remplies par des barres.

Considérez également que, à moins que les parkings soient de la même taille, le nombre de voitures est trompeur. Un graphique avec une zone fixe et des barres typiques implique que chaque barre représente le même remplissage d'éléments dans l'espace de manière égale. Vous ne résolvez que partiellement ce problème avec les proportions de voitures dans les lots. Une alternative lorsqu'il n'y a qu'une seule période de temps serait d'avoir des barres vides indiquant la taille des lots, puis de les remplir avec le nombre de voitures. Mais cela serait trop complexe lors de la démonstration de plusieurs lots. Les graphiques linéaires de la proportion de remplissage connectés au fil des heures avec une ligne pour chaque lot est la meilleure façon d'aller ici.

John
la source

D'accord, en particulier si vous essayez de comparer deux ou plusieurs ensembles de données (disons trois parkings) dans le temps. Il est difficile d'essayer de garder les différents points de couleur et les échanges droits sans lignes. Il est généralement assez clair que si un graphe linéaire est une ligne reliant des points, les points sont discrets et que s'il ne s'agit que d'une ligne, il reflète des données continues.

Wayne

Convenu que les lignes aident à différencier les ensembles séparés; J'ai démontré ce point dans ma réponse.

Nick Stauner

1

À mon humble avis, celui qui a omis pour la première fois le calendrier précis des changements number of carsest le premier responsable de tout résultat trompeur. Si vous aviez cette information (même si elle était mesurée avec erreur), ce timeserait une variable continue appropriée, pas nécessairement une variable continue groupée (voir Anderson, 1984). Vous seriez libre de regrouper les observations dans des hourbacs basés sur si vous le vouliez vraiment, à quel point vous assumeriez la responsabilité de dériver des résultats trompeurs. Sinon, en conservant des heures d'arrivée précises, vous pourriez représenter graphiquement number of cars des séries chronologiquessur continue timeavec précision.

Quoi qu'il en soit, en supposant que vous êtes coincé avec number of carsparhour, Je suis d'accord avec @John, vous devriez tracer une ligne reliant vos observations horaires. Si vous manquez d'informations sur le moment où chaque changement incrémentiel s'est produit, il est plutôt difficile de dire que vous induisez quelqu'un en erreur, sauf si vous ne décrivez pas les limites des informations représentées graphiquement. De même, si vous représentez graphiquement vos données horaires avec un simple graphique à barres sans ligne reliant les bacs, vous n'êtes pas vraiment coupable d'induire en erreur quiconque si vous ne prétendez pas que les changements entre les observations horaires se produisent exactement comme illustré, à l'heure, tout à la fois. Si quelqu'un se méprend (comme cela se produira probablement avec toute statistique ou donnée suffisamment publiée), il ne sera pas vrai que vous l'ayez induit en erreur, surtout si vous décrivez vos données et votre procédure de collecte de manière suffisamment détaillée. Cela ne devrait pas être difficile à faire.

Étant donné la clarté et la minutie de base des descriptions de données et de graphiques, il ne devrait y avoir aucun inconvénient à tracer une ligne pour connecter vos bacs. L' avantage de connecter vos bacs est en fait ce que vous semblez être l'inconvénient: tracer ces lignes imite une équation à mi-chemin décente pour le number of carsen fonction de continue time, même si elle est basée sur des observations horaires discrètes. Vous pouvez utiliser une ligne droite entre les observations pour représenter une hypothèse assez raisonnable que le changement se produit linéairement sur chacune hour, pas toutes à la fois. Sur la base d'une telle hypothèse, tout lecteur peut faire une estimation décente de ce qui, minuteaprès une mesure donnée hour, verra la prochaine voiture arriver ou partir par cette procédure en quatre étapes assez sensée:

Trouver le point sur la ligne où l' observation précédentenumber of cars $=1+$ hour
Tracez une ligne droite vers le bas à partir de ce point pour trouver son intersection avec l' houraxe
Mesurer le distancede ce point sur l' houraxe du point de l'observation précédente
distance $\div$ distance between observations $\times60=$ minute après l' hourarrivée de la prochaine voiture.

Bien sûr, on peut également estimer l'arrivée de la prochaine voiture à la seconde près, et vous ne pouvez pas empêcher les lecteurs de le faire en ne fournissant pas la ligne - dessiner la ligne devient simplement la première des cinq étapes. Ainsi, si quelqu'un veut vraiment savoir combien de voitures étaient là dans l'intervalle ... eh bien, ils ne le peuvent pas, car les informations ne sont pas disponibles, mais ils peuvent estimer. Si vous supprimez une étape du processus pour eux, j'imagine qu'ils vous en seront reconnaissants.

Faire cela pour vos lecteurs avec des lignes simples et droites n'implique que votre confort avec l'hypothèse que le changement se produit linéairement entre les observations horaires, ou plus péjorativement, votre désintérêt pour toute inexactitude dans cette hypothèse. Les inexactitudes ne sont pas difficiles à imaginer. Premièrement, le changement se produit nécessairement comme une fonction non linéaire, gonflée par zéro de time. Ce n'est pas linéaire car l'événement de changement est ternaire : soit une voiture arrive, part, soit aucune - les voitures n'arrivent pas ou ne partent pas par incréments fractionnaires. Il est gonflé à zéro car la plupart des moments ne verront pas une voiture arriver ou partir. Vous pouvez contourner cela en traitant la ligne comme décrivant probabilityque les voitures arriveront ou partiront à tout moment pour atteindre le nombre entier le plus proche.

Une autre inexactitude de l'hypothèse derrière les lignes droites entre les observations horaires subsiste. Vous pouvez vous attendre à ce que le taux de changement (en termes de probabilitycomme ci-dessus) change plus en douceur au fil du temps que vos lignes droites tracées séparément entre les points impliquent. En termes plus mathématiques, vous souhaiterez peut-être que la dérivée de votre fonction number of cars( hour) soit continue sur hours. Vous pourriez être en mesure de le faire en adaptant une fonction polynomiale à vos données, mais si votre objectif est prédictif, méfiez-vous dessurajustement.

Un autre avantage des lignes par rapport aux barres de style histogramme (c'est-à-dire sans espacement intermédiaire pour les valeurs adjacentes de hour... sans parler des graphiques avec des barres qui ne se "touchent" pas) découle de votre lotvariable polytomique . Vous pouvez superposer vos séries chronologiques distinctes pour chaque lot sur le même graphique afin de faciliter les comparaisons, ce qui vous aidera à voir si votre lotvariable est intéressante. Voici une démonstration avec quelques données inventées:

Bravo à McCown !

Je ne vais même pas essayer de comprendre comment le faire de manière cohérente avec les barres; Je laisse cela à @ ChristianStade-Schuldt;) Pour être honnête, il est encore plus facile de ne pas connecter ces points comme il l'a suggéré, mais l'ajout de lignes aide à lever l'ambiguïté des points correspondant à des séries chronologiques distinctes les unes des autres. Au final, ça va quand même être un peu subjectif, alors jugez par vous-même:

Pour ma part, je me retrouve à dessiner les lignes dans mon esprit de toute façon. BTW, si vous sentez que les lignes de la première figure nuisent à l'impact visuel des points exacts, n'oubliez pas que vous pouvez toujours augmenter la taille des points, changer leur forme ou présenter leurs valeurs numériquement dans un tableau séparé .

^{Référence

Anderson, JA (1984). Régression et variables catégorielles ordonnées. Journal de la Royal Statistical Society B, 46 , 1–30.}

Nick Stauner
la source

1

Une ligne continue indique un continuum. Si des moyennes devaient être tracées, j'envisagerais d'utiliser un diagramme à barres ou un diagramme en escalier. Le traçage de points individuels est également possible, et lorsque des moyennes sont concernées, vous pouvez probablement ajouter des informations sur l'écart-type si nécessaire.

Peter Jansson
la source

0

Je ne relierais pas ces points parce que ce sont des valeurs discrètes. Selon la quantité de points de données, vous pouvez utiliser un graphique à colonnes / à barres ou simplement des points.

Christian Stade-Schuldt
la source

Relier les points dans un graphique

Réponses: