Est-ce mal d'utiliser des tracés linéaires pour des données discrètes?

J'ai souvent vu des ensembles de données discrets tracés comme des tracés linéaires, mais il me semble que la ligne infère une valeur à un point entre les intervalles de mesure, ce qui n'a pas de sens pour les ensembles de données discrets. Est-ce donc le cas que l'utilisation des tracés linéaires pour des données discrètes est erronée?

Par exemple, prenez deux ensembles de données chronologiques, un continu (mon poids, mesuré quotidiennement le matin) et un discret (le nombre de beignets que je mange par jour). Il est logique que le premier ensemble de données soit un tracé linéaire, car il est raisonnable de déduire que mon poids dans un après-midi donné sera lié à mon poids les matins précédent et suivant. Cependant, si le nombre de beignets est représenté sous forme de graphique linéaire, les lignes entre les points sans signification peuvent être déduites de cette ligne.

ÉDITER

Voici un autre exemple: le salaire horaire minimum fédéral depuis sa création à http://mste.illinois.edu/courses/ci330ms/youtsey/lineinfo.html

Sauf erreur, les changements de salaire minimum sont discrets, et il n'est donc pas possible de rechercher une heure arbitrairement sélectionnée et d'établir le salaire minimum au point à l'aide de la ligne reliant les points.

data-visualization user1379351
la source

(+1) L'exemple du salaire horaire minimum est excellent. La formulation même de votre question suggère une bonne réponse: à savoir, que les points de connexion sur un graphique ne sont pas valides quand cela entraînerait le lecteur à effectuer des interpolations inexactes (ou tout à fait invalides). Faire une distinction entre la discrétion et la discontinuité aiderait à une analyse plus approfondie: la consommation de beignets est discrète tandis que le salaire minimum est discontinu. Chacun mérite une forme de complot différente.

whuber

Il existe des tracés où un nuage de points avec des données discrètes est trompeur sur un tracé linéaire. Pour de nombreux exemples où une séquence d'événements est nécessaire (hystérésis), ou des oscillations entre deux niveaux se produisent et il faut suivre les changements d'état et leur emplacement. Donc: n'utilisez pas les tracés linéaires pour impliquer une interpolation, mais utilisez-les comme guide si approprié. Il n'est pas assez simple de créer une règle de choix simple, mais il faut tenir compte des données et du modèle à portée de main.

wirrbel

Question interessante! Merci pour ça. Je traite de nombreuses données temporelles qui proviennent en partie de modèles discrets et de données partiellement mesurées. Qu'en est-il de l'option d'utiliser des tracés de ligne en escalier pour les données discrètes (qui peuvent être continues d'une certaine manière mais nous n'avons toujours pas de fonction entre les points uniques et ne pouvons pas simplement supposer en avoir un) et les réguliers pour les données continues? C'est ainsi que je

gère les

@CordKaldemeyer merci d'avoir commenté - Je n'étais pas au courant du type de graphique "tracé de ligne en escalier", mais c'est certainement ce que je recherche. J'ai également trouvé ce tutoriel utile sur la réalisation de tracés de ligne en escalier dans Excel: trumpexcel.com/step-chart-in-excel

user1379351

@ user1379351: Heureux d'avoir pu aider!

Cord Kaldemeyer

Réponses:

Les tracés de ligne connectés se sont révélés trop utiles pour se limiter à une seule interprétation. Quelques utilisations importantes:

Valeurs interpolées . Le cas où vous mentionnez où les deux variables sont continues et chaque point interpolé le long de la ligne comme une interprétation significative.
Taux de changement . Même lorsque les valeurs intermédiaires ne sont pas significatives, la pente de chaque segment de ligne est une bonne représentation du taux de changement. Notez que pour cette interprétation, les valeurs X et Y doivent être espacées de manière appropriée, ce qui n'est pas le cas dans le graphique des salaires que vous citez.
Comparaison de profils . Lors de la comparaison de petits multiples ou de mesures superposées, les lignes peuvent être utiles même pour des facteurs catégoriels. Dans ce cas, les lignes servent à connecter des groupes de réponses pour une reconnaissance de modèle limitée. Voici un exemple de peltiertech.com avec le facteur sur l'axe Y (au lieu de l'axe X) pour la lisibilité des étiquettes:

entrez la description de l'image ici

xan
la source

C'est vrai, mais les 2e et 3e graphiques sont strictement moins puissants que le premier, car on ne peut pas du tout utiliser le calcul.

Milind R

Eh bien, les beignets pourraient être liés au poids :-)

Pendant que je vois votre point, je pense que cet exemple n'est pas si mal parce que le temps (sur l'axe horizontal, auquel les lignes se réfèrent) est continu. Le sens de la ligne, pour moi, n'est pas tant que, à chaque moment de la journée, vous avez mangé un certain nombre de beignets, mais que le nombre de beignets par jour change de manière régulière. Ainsi, nous pourrions ajouter quelque chose comme un loess plus lisse à la ligne, et cela aurait du sens. Il est au moins raisonnable de penser à des beignets mangés à chaque heure, voire à chaque minute (même si cela serait plus judicieux avec une variable où le nombre par jour était plus élevé)

Ce qui est plus inquiétant, c'est lorsque l' axe horizontal est discret (et surtout lorsqu'il est nominal) mais que des lignes sont tracées. Cela n'a vraiment aucun sens. Par exemple, si vous regardez (disons) le% de votes pour Obama parmi (disons) les résidents de différentes régions des États-Unis, cela n'a aucun sens de tracer une ligne entre le Nord-Est et le Midwest; d'autant plus que l'ordre des régions est arbitraire, mais changer l'ordre changerait les lignes. Pourtant, j'ai vu des graphiques comme celui-ci.

Peter Flom - Réintégrer Monica
la source

Je suis tout à fait d'accord pour dire qu'il existe de bien pires abus des graphiques linéaires. J'aime l'approche plus fluide car elle ne relie pas les points et n'implique donc pas de données qui ne sont pas là. Mais cela sert à souligner la tendance inquiétante de la consommation de beignets. Merci!

user1379351

Vous semblez proposer de remplacer une variable - la consommation de beignets - par une autre; à savoir, une densité de consommation de beignets (beignets par unité de temps). Bien que cela soit fréquemment fait - en particulier dans les analyses bidimensionnelles (telles que les cartes de densité de population) - et puisse être très efficace, il serait bon que les lecteurs sachent qu'il existe une distinction et envisagent comment cette distinction pourrait être révélé graphiquement.

whuber

@whuber C'est un bon point; la ligne semble faire ce remplacement. Un graphique qui ne fait pas ce remplacement pourrait simplement être des points, non connectés, mais cela semble donner au moins une indication de la consommation de beignets située à un point particulier. Ainsi, nous pourrions rendre le temps continu et mettre un point au moment où un beignet a été consommé.

Peter Flom - Réintègre Monica