J'ai une dispute avec mon conseiller sur la visualisation des données. Il prétend que lors de la représentation des résultats expérimentaux, les valeurs doivent être tracées avec des " marqueurs " uniquement, comme présenté dans l'image ci-dessous. Alors que les courbes ne doivent représenter qu'un " modèle "
D'un autre côté, je pense qu'une courbe n'est pas nécessaire dans de nombreux cas pour faciliter la lisibilité, comme le montre la deuxième image ci-dessous:
Ai-je tort ou mon professeur? Si le dernier est le cas, comment puis-je lui expliquer cela.
data-visualization
communication
Ivan P.
la source
la source
Réponses:
J'aime cette règle d'or:
Les humains sont extrêmement bons pour reconnaître les modèles (nous sommes plutôt du côté de voir des tendances qui n'existent pas que de manquer une tendance existante). Si nous ne pouvons pas obtenir la tendance sans ligne, nous pouvons être sûrs qu'aucune tendance ne peut être démontrée de manière concluante dans l'ensemble de données.
En parlant du deuxième graphique, la seule indication de l'incertitude de vos points de mesure sont les deux carrés rouges de C: O 1.2 à 700 ° C. La propagation de ces deux signifie que je n'accepterais pas par exemple
sans très bonnes raisons données. Mais ce serait là encore un modèle.
edit: réponse au commentaire d'Ivan:
Je suis chimiste et je dirais qu'il n'y a pas de mesure sans erreur - ce qui est acceptable dépendra de l'expérience et de l'instrument.
Cette réponse n'est pas contre le fait de montrer une erreur expérimentale mais tout pour le montrer et le prendre en compte.
L'idée derrière mon raisonnement est que le graphique montre exactement une mesure répétée, donc lorsque la discussion porte sur la complexité d'un modèle (par exemple, ligne horizontale, ligne droite, quadratique, ...), cela peut nous donner une idée de la mesure Erreur. Dans votre cas, cela signifie que vous ne pourriez pas ajuster un quadratique significatif (spline), même si vous aviez un modèle dur (par exemple, une équation thermodynamique ou cinétique) suggérant qu'il devrait être quadratique - vous n'avez tout simplement pas assez de données .
Pour illustrer cela:
Voici un ajustement linéaire avec son intervalle de confiance à 95% pour chacun des ratios C: O:
Notez que pour les ratios C: O supérieurs, l'intervalle de confiance se situe bien en dessous de 0. Cela signifie que les hypothèses implicites du modèle linéaire sont fausses. Cependant, vous pouvez conclure que les modèles linéaires pour les contenus C: O supérieurs sont déjà surajustés.
Donc, reculer et ajuster une valeur constante uniquement (c.-à-d. Pas de dépendance T):
Le complément consiste à ne modéliser aucune dépendance à C: O:
Pourtant, l'intervalle de confiance couvrirait des lignes horizontales ou même légèrement ascendantes.
Vous pouvez continuer et essayer, par exemple, d'autoriser différents décalages pour les trois rapports C: O, mais en utilisant des pentes égales.
Cependant, déjà quelques mesures supplémentaires amélioreraient considérablement la situation - notez à quel point les intervalles de confiance pour C: O = 1: 1 sont plus étroits, où vous avez 4 mesures au lieu de seulement 3.
Conclusion: si vous comparez mes points dont je serais sceptique sur les conclusions, ils lisaient beaucoup trop dans les quelques points disponibles!
la source
Comme le dit JeffE: les points sont les données . En général, il est bon d'éviter autant que possible d'ajouter des courbes. L'une des raisons de l'ajout d'une courbe est qu'elle rend le graphique plus agréable à l'œil, en rendant les points et la tendance entre les points plus lisibles. Cela est particulièrement vrai si vous avez peu de points de données.
Cependant, il existe d'autres façons d'afficher des données éparses , qui peuvent être meilleures qu'un nuage de points. Une possibilité est un graphique à barres, où les différentes barres sont beaucoup plus visibles que vos points uniques. Un code couleur (similaire à ce que vous avez déjà dans votre figure) vous aidera à voir les tendances dans chaque série de données (ou les séries de données pourraient être divisées et présentées côte à côte dans des graphiques à barres individuels plus petits).
Enfin, si vous voulez vraiment ajouter une sorte de ligne entre vos symboles, il y a deux cas:
Si vous vous attendez à ce qu'un certain modèle soit valide pour vos données (linéaire, harmonique, peu importe), vous devez ajuster vos données sur le modèle, expliquer le modèle dans le texte et commenter l'accord entre les données et le modèle.
Si vous n'avez pas de modèle raisonnable pour les données, vous ne devez pas inclure d'hypothèses supplémentaires dans votre graphique. En particulier, cela signifie que vous ne devez inclure aucun type de lignes entre vos points, à l'exception des lignes droites. Les jolies interpolations «ajustement spline» que Excel (et d'autres logiciels) peuvent dessiner sont un mensonge . Il n'y a aucune raison valable pour que vos données suivent ce modèle mathématique particulier, vous devez donc vous en tenir aux segments de ligne droite.
De plus, dans ce cas, il peut être agréable d'ajouter un avertissement quelque part dans la légende de la figure, comme «les lignes ne sont que des guides pour l'œil».
la source
1-Votre professeur fait valoir un argument valable.
2-Votre intrigue n'augmente certainement pas la lisibilité à mon humble avis.
3-D'après ma compréhension, ce n'est pas le bon forum pour poser vraiment ce genre de question et vous devriez la poser lors d'une validation croisée.
la source
Parfois, joindre des points a du sens, surtout s'ils sont très denses.
Et puis il peut être judicieux d'interpoler (par exemple avec une spline ). Cependant, si c'est quelque chose de plus avancé que la spline d'ordre un (pour lequel il est visiblement évident qu'il ne fait que joindre des points), vous devez le mentionner.
Cependant, pour le cas de quelques points, ou d'une douzaine de points, ce n'est pas le cas. Laissez les points tels quels, avec des marqueurs. Si vous souhaitez ajuster une ligne (ou une autre courbe), c'est un modèle. Vous pouvez l'ajouter, mais soyez explicite - par exemple, "la ligne représente un ajustement de régression linéaire".
la source
Je pense qu'il y a des cas où l'on ne propose pas de modèle explicite, mais qui a besoin d'une sorte de guide à l'œil. Ma règle est alors d'éviter les courbes comme la peste et de s'en tenir aux lignes droites par morceaux entre les points successifs d'une série.
D'une part, cette hypothèse est plus évidente pour les lecteurs. De plus, le caractère pointu est bon pour éloigner les lecteurs de l'hypothèse de tendances non étayées par les données. Le cas échéant, cela ne fait que mettre en évidence le bruit et les valeurs aberrantes.
Les choses que je me méfie est rapide (non rigoureuse, non explicite) l' utilisation de splines, quadratiques, régression , etc. Très souvent , cela fait paraître il y a des tendances où il n'y en a pas. Un bon exemple d'abus sont les courbes tracées par @Ivan. Avec 3 points de données, je ne pense pas que des maxima ou des minima dans le modèle sous-jacent soient évidents.
la source