Représenter des données expérimentales

9

J'ai une dispute avec mon conseiller sur la visualisation des données. Il prétend que lors de la représentation des résultats expérimentaux, les valeurs doivent être tracées avec des " marqueurs " uniquement, comme présenté dans l'image ci-dessous. Alors que les courbes ne doivent représenter qu'un " modèle "

Markers.png

D'un autre côté, je pense qu'une courbe n'est pas nécessaire dans de nombreux cas pour faciliter la lisibilité, comme le montre la deuxième image ci-dessous:

Lines.png

Ai-je tort ou mon professeur? Si le dernier est le cas, comment puis-je lui expliquer cela.

Ivan P.
la source
5
Les points sont les données. Les courbes que vous ajustez aux points ne sont pas les données. Donc, si votre intention est de montrer les données ....
3
Comme le dit JeffE. Pour être encore plus explicite: les courbes que vous avez tracées sont un modèle, car vous avez pris une forme particulière lors de leur dessin et vous avez eu un certain raisonnement pour cette forme. Ce raisonnement est basé sur un modèle particulier.
gerrit
1
J'ai soumis une demande de migration; cela appartient vraiment à la validation croisée, pas ici.
2
Je pense que cela pourrait être sur le sujet sur CrossValidated, mais c'est certainement aussi sur le sujet ici . La migration ne devrait être envisagée que si elle est hors sujet ici (il y a des questions qui seraient sur le sujet sur deux sites, ça va). C'est une vraie question avec des réponses valables, elle est certainement pertinente pour de nombreux universitaires.
2
Votre deuxième graphique est douteux. Si vous aviez joint les points avec des lignes droites, vous (peut-être) avez un argument pour la clarté visuelle. Mais en utilisant une courbe, vous prétendez que le pic de la ligne bleue est à 740 ° et que le minimum de la ligne violette est à 840 °, même si vous n'avez pas de données expérimentales à ces températures. L'introduction de min / max en dehors des données mesurées est un drapeau rouge.
Darren Cook

Réponses:

10

J'aime cette règle d'or:

Si vous avez besoin de la ligne pour guider l'œil (c'est-à-dire pour montrer une tendance qui sans la ligne ne serait pas visible aussi clairement), vous ne devriez pas mettre la ligne.

Les humains sont extrêmement bons pour reconnaître les modèles (nous sommes plutôt du côté de voir des tendances qui n'existent pas que de manquer une tendance existante). Si nous ne pouvons pas obtenir la tendance sans ligne, nous pouvons être sûrs qu'aucune tendance ne peut être démontrée de manière concluante dans l'ensemble de données.

En parlant du deuxième graphique, la seule indication de l'incertitude de vos points de mesure sont les deux carrés rouges de C: O 1.2 à 700 ° C. La propagation de ces deux signifie que je n'accepterais pas par exemple

  • qu'il existe une tendance pour C: O 1.2
  • qu'il y a une différence entre 2.0 et 3.6
  • et à coup sûr les modèles courbes sur-adaptent les données.

sans très bonnes raisons données. Mais ce serait là encore un modèle.


edit: réponse au commentaire d'Ivan:

Je suis chimiste et je dirais qu'il n'y a pas de mesure sans erreur - ce qui est acceptable dépendra de l'expérience et de l'instrument.

Cette réponse n'est pas contre le fait de montrer une erreur expérimentale mais tout pour le montrer et le prendre en compte.

L'idée derrière mon raisonnement est que le graphique montre exactement une mesure répétée, donc lorsque la discussion porte sur la complexité d'un modèle (par exemple, ligne horizontale, ligne droite, quadratique, ...), cela peut nous donner une idée de la mesure Erreur. Dans votre cas, cela signifie que vous ne pourriez pas ajuster un quadratique significatif (spline), même si vous aviez un modèle dur (par exemple, une équation thermodynamique ou cinétique) suggérant qu'il devrait être quadratique - vous n'avez tout simplement pas assez de données .

Pour illustrer cela:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Voici un ajustement linéaire avec son intervalle de confiance à 95% pour chacun des ratios C: O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

modèle linéaire

Notez que pour les ratios C: O supérieurs, l'intervalle de confiance se situe bien en dessous de 0. Cela signifie que les hypothèses implicites du modèle linéaire sont fausses. Cependant, vous pouvez conclure que les modèles linéaires pour les contenus C: O supérieurs sont déjà surajustés.

Donc, reculer et ajuster une valeur constante uniquement (c.-à-d. Pas de dépendance T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

pas de dépendance T

Le complément consiste à ne modéliser aucune dépendance à C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

pas de dépendance C: O

Pourtant, l'intervalle de confiance couvrirait des lignes horizontales ou même légèrement ascendantes.

Vous pouvez continuer et essayer, par exemple, d'autoriser différents décalages pour les trois rapports C: O, mais en utilisant des pentes égales.

Cependant, déjà quelques mesures supplémentaires amélioreraient considérablement la situation - notez à quel point les intervalles de confiance pour C: O = 1: 1 sont plus étroits, où vous avez 4 mesures au lieu de seulement 3.

Conclusion: si vous comparez mes points dont je serais sceptique sur les conclusions, ils lisaient beaucoup trop dans les quelques points disponibles!

cbeleites mécontents de SX
la source
vous faites très bon point. Cependant, en ingénierie, l'erreur expérimentale (incertitude) est très courante et on suppose qu'une erreur relative de 3 à 5% est acceptable. Je dois quand même afficher les résultats MAX, MIN et AVG. Donc dans mon cas, les marqueurs sont les extrémités et la ligne est la moyenne.
Ivan P.
exemple très bon et extrêmement utile (vous m'avez intéressé par R). Alors, bien sûr, la bonne chose à faire est d'obtenir plus de points de données.
Ivan P.
12

Comme le dit JeffE: les points sont les données . En général, il est bon d'éviter autant que possible d'ajouter des courbes. L'une des raisons de l'ajout d'une courbe est qu'elle rend le graphique plus agréable à l'œil, en rendant les points et la tendance entre les points plus lisibles. Cela est particulièrement vrai si vous avez peu de points de données.

Cependant, il existe d'autres façons d'afficher des données éparses , qui peuvent être meilleures qu'un nuage de points. Une possibilité est un graphique à barres, où les différentes barres sont beaucoup plus visibles que vos points uniques. Un code couleur (similaire à ce que vous avez déjà dans votre figure) vous aidera à voir les tendances dans chaque série de données (ou les séries de données pourraient être divisées et présentées côte à côte dans des graphiques à barres individuels plus petits).

Enfin, si vous voulez vraiment ajouter une sorte de ligne entre vos symboles, il y a deux cas:

  1. Si vous vous attendez à ce qu'un certain modèle soit valide pour vos données (linéaire, harmonique, peu importe), vous devez ajuster vos données sur le modèle, expliquer le modèle dans le texte et commenter l'accord entre les données et le modèle.

  2. Si vous n'avez pas de modèle raisonnable pour les données, vous ne devez pas inclure d'hypothèses supplémentaires dans votre graphique. En particulier, cela signifie que vous ne devez inclure aucun type de lignes entre vos points, à l'exception des lignes droites. Les jolies interpolations «ajustement spline» que Excel (et d'autres logiciels) peuvent dessiner sont un mensonge . Il n'y a aucune raison valable pour que vos données suivent ce modèle mathématique particulier, vous devez donc vous en tenir aux segments de ligne droite.

    De plus, dans ce cas, il peut être agréable d'ajouter un avertissement quelque part dans la légende de la figure, comme «les lignes ne sont que des guides pour l'œil».

F'x
la source
2
C'est un excellent conseil moins le commentaire selon lequel les barres sont plus appropriées. Pour une discussion similaire à ce sujet, voir Graphiques alternatifs pour tracer des «barres de poignée» . Imaginez l'intrigue répertoriée par l'OP sous forme de graphique à barres groupées, il serait extrêmement difficile de visualiser la tendance à travers les plages de températures. Un moyen de rendre les points plus visibles est de les faire trembler le long de l'axe des x, et le travail de Cleveland suggère que nous devrions de toute façon préférer les points aux barres.
Andy W
@Andy W, que voulez-vous dire par "les faire bouger le long de l'axe des x"?
Ivan P.
1
@IvanP., Je veux dire au lieu de fixer les points à cette valeur particulière en abscisse pour les déplacer légèrement vers la droite ou la gauche afin que les points ne se recouvrent pas. Il doit être clair d'après le reste du graphique qu'ils se réfèrent vraiment aux valeurs exactes pour les groupes sur l'axe des x, et la légère gigue ne devrait pas avoir d'effet sur la visualisation de la tendance entre les valeurs.
Andy W
6

1-Votre professeur fait valoir un argument valable.

2-Votre intrigue n'augmente certainement pas la lisibilité à mon humble avis.

3-D'après ma compréhension, ce n'est pas le bon forum pour poser vraiment ce genre de question et vous devriez la poser lors d'une validation croisée.

blackace
la source
Je suis intéressé de savoir où se situe le problème de lisibilité et toutes les suggestions d'amélioration sont les bienvenues
Ivan P.
1

Parfois, joindre des points a du sens, surtout s'ils sont très denses.

Et puis il peut être judicieux d'interpoler (par exemple avec une spline ). Cependant, si c'est quelque chose de plus avancé que la spline d'ordre un (pour lequel il est visiblement évident qu'il ne fait que joindre des points), vous devez le mentionner.

Cependant, pour le cas de quelques points, ou d'une douzaine de points, ce n'est pas le cas. Laissez les points tels quels, avec des marqueurs. Si vous souhaitez ajuster une ligne (ou une autre courbe), c'est un modèle. Vous pouvez l'ajouter, mais soyez explicite - par exemple, "la ligne représente un ajustement de régression linéaire".

Piotr Migdal
la source
0

Je pense qu'il y a des cas où l'on ne propose pas de modèle explicite, mais qui a besoin d'une sorte de guide à l'œil. Ma règle est alors d'éviter les courbes comme la peste et de s'en tenir aux lignes droites par morceaux entre les points successifs d'une série.

D'une part, cette hypothèse est plus évidente pour les lecteurs. De plus, le caractère pointu est bon pour éloigner les lecteurs de l'hypothèse de tendances non étayées par les données. Le cas échéant, cela ne fait que mettre en évidence le bruit et les valeurs aberrantes.

Les choses que je me méfie est rapide (non rigoureuse, non explicite) l' utilisation de splines, quadratiques, régression , etc. Très souvent , cela fait paraître il y a des tendances où il n'y en a pas. Un bon exemple d'abus sont les courbes tracées par @Ivan. Avec 3 points de données, je ne pense pas que des maxima ou des minima dans le modèle sous-jacent soient évidents.

curious_cat
la source