Existe-t-il un moyen plus scientifique de déterminer le nombre de chiffres significatifs à déclarer pour une moyenne ou un intervalle de confiance dans une situation qui est assez standard - par exemple, la première année au collège.
J'ai vu Nombre de chiffres significatifs à mettre dans un tableau , Pourquoi n'utilisons-nous pas des chiffres significatifs et Nombre de chiffres significatifs dans un ajustement chi carré , mais ceux-ci ne semblent pas mettre le doigt sur le problème.
Dans mes cours, j'essaie d'expliquer à mes élèves que c'est un gaspillage d'encre de rapporter 15 chiffres significatifs quand ils ont une si large erreur standard dans leurs résultats - mon intuition était qu'elle devrait être arrondie à environ quelque part de l'ordre de . Ce n'est pas trop différent de ce qui est dit par ASTM - Reporting Test Results se référant à E29 où ils disent qu'il devrait être compris entre et .
ÉDITER:
Lorsque j'ai un ensemble de chiffres comme x
ci-dessous, combien de chiffres dois-je utiliser pour imprimer la moyenne et l'écart-type?
set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109
QUESTION: Expliquez en détail quelle est la précision (lorsqu'il existe un vecteur de nombres à double précision) pour la moyenne et l'écart-type et écrivez une fonction pédagogique R simple qui imprimera la moyenne et l'écart-type au nombre significatif de chiffres qui se reflète dans le vecteur x
.
R
(ainsi que dans presque tous les logiciels), l'impression est contrôlée par une valeur globale (voiroptions(digits=...)
), et non par aucune considération de précision.Réponses:
Le Guide de l'incertitude de mesure (GUM) recommande que l'incertitude soit déclarée avec un maximum de 2 chiffres et que le résultat soit rapporté avec le nombre de chiffres significatifs nécessaires pour le rendre cohérent avec l'incertitude. Voir la section 7.2.2 ci-dessous
http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf
Le code suivant était ma tentative d'implémenter cette recommandation dans R. Noe que R peut ne pas coopérer avec les tentatives de conserver les zéros de fin en sortie, même s'ils sont significatifs.
la source
> gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
val = 8165.666
etunc = 338.9741
, la mesure doit être signalée commeval = 8.17(34)*10^3
(pasval = 8170
avecunc = 340
comme indiqué), pour indiquer clairement que seuls deux chiffres de l'incertitude sont significatifs.Si vous affichez l'intervalle de confiance ainsi que la valeur de la statistique, il n'y a aucun problème à donner autant de chiffres significatifs que vous le souhaitez, car dans ce cas, un grand nombre de chiffres significatifs n'implique pas une précision fallacieuse comme l'intervalle de confiance donne une indication de la précision réelle probable (un intervalle crédible serait préférable). Il s'agit alors essentiellement de rendre le tableau soigné, concis et lisible, il est donc peu probable qu'il y ait une règle simple qui convienne à toutes les occasions.
La reproductibilité est importante dans les études scientifiques, donc idéalement, il devrait être possible de reproduire les résultats sur un nombre illimité de figures siginifcantes (qu'elles aient une signification pratique ou non). L'arrondi à un petit nombre de chiffres significatifs pourrait réduire la confiance dans la réplication d'une étude car les erreurs pourraient être masquées par l'arrondi des résultats, il y a donc un inconvénient possible à l'arrondi dans certaines circonstances.
Une autre raison de ne pas aller trop loin est que cela peut empêcher les autres de prolonger votre étude sans la répéter. Par exemple, je pourrais publier un article comparant divers algorithmes d'apprentissage automatique à l'aide du test de Friedman, qui dépend du classement des différents algorithmes sur un ensemble d'ensembles de données de référence. Si les statistiques pour les classificateurs individuels sur chaque ensemble de données sont données à un certain nombre de chiffres significatifs en fonction de leurs erreurs standard, cela créera sans aucun doute de nombreux liens apparents dans les classements. Cela signifie que (i) un lecteur / réviseur de l'article ne sera pas en mesure de reproduire le test de Friedman à partir des résultats donnés dans l'article et (ii) quelqu'un d'autre serait alors incapable d'évaluer son algorithme sur les ensembles de données de référence et d'utiliser le Friedman test pour le mettre dans le contexte des résultats de mon étude.
la source
Certes, toute décision, prise objectivement ou subjectivement, dépendrait fortement de ce que vous mesurez et de la précision de votre instrument de mesure. Ce dernier n'est qu'une partie de la variation observée et n'est pas toujours facile à discerner ou à trouver des preuves existantes. Je soupçonne donc fortement qu'il n'y a pas de décision objective et universellement applicable. Il vous suffit d'utiliser votre cerveau et de faire le meilleur jugement dans chaque situation.
la source