Nombre de chiffres significatifs à signaler

12

Existe-t-il un moyen plus scientifique de déterminer le nombre de chiffres significatifs à déclarer pour une moyenne ou un intervalle de confiance dans une situation qui est assez standard - par exemple, la première année au collège.

J'ai vu Nombre de chiffres significatifs à mettre dans un tableau , Pourquoi n'utilisons-nous pas des chiffres significatifs et Nombre de chiffres significatifs dans un ajustement chi carré , mais ceux-ci ne semblent pas mettre le doigt sur le problème.

Dans mes cours, j'essaie d'expliquer à mes élèves que c'est un gaspillage d'encre de rapporter 15 chiffres significatifs quand ils ont une si large erreur standard dans leurs résultats - mon intuition était qu'elle devrait être arrondie à environ quelque part de l'ordre de . Ce n'est pas trop différent de ce qui est dit par ASTM - Reporting Test Results se référant à E29 où ils disent qu'il devrait être compris entre et .0,25σ0,05σ0,5σ

ÉDITER:

Lorsque j'ai un ensemble de chiffres comme xci-dessous, combien de chiffres dois-je utiliser pour imprimer la moyenne et l'écart-type?

set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109

QUESTION: Expliquez en détail quelle est la précision (lorsqu'il existe un vecteur de nombres à double précision) pour la moyenne et l'écart-type et écrivez une fonction pédagogique R simple qui imprimera la moyenne et l'écart-type au nombre significatif de chiffres qui se reflète dans le vecteur x.

Sean
la source
Je ne comprends pas pourquoi "Le nombre de chiffres significatifs à mettre dans un tableau" ne répond pas entièrement à votre question: quel point manque cette question?
whuber
J'aime votre réponse à cette question @whuber, mais je voudrais un peu plus de détails.
Sean
1
Mais des détails sur quoi? En tout état de cause, il semble que votre question soit vraiment une copie exacte de celle-ci et que vous aimeriez voir des améliorations à ses réponses. Ai-je raison? BTW, si vous cherchez des conseils pédagogiques, je voudrais vous signaler un exemple (spécialisé) que j'ai posté sur gis.stackexchange.com/questions/8650 concernant la communication des coordonnées géographiques: l'idée est d'associer le nombre de significatifs chiffres avec des objets dont la plupart des lecteurs saisiront facilement et intuitivement. Une approche similaire pourrait bien fonctionner dans d'autres applications.
whuber
1
@whuber oui vous avez raison, et j'aime cet exemple. Je suppose que je cherche plus de détails sur la façon dont la précision est liée à l'écart-type. Par exemple, dans R, x <- rnorm (30); moyenne (x); sd (x) # ici clairement le sd vaut environ 1 mais dans R la moyenne est imprimée par défaut avec 7 chiffres de précision. sd (x) / 30 est d'environ 0,18. Merci
Sean
Dans R(ainsi que dans presque tous les logiciels), l'impression est contrôlée par une valeur globale (voir options(digits=...)), et non par aucune considération de précision.
whuber

Réponses:

9

Le Guide de l'incertitude de mesure (GUM) recommande que l'incertitude soit déclarée avec un maximum de 2 chiffres et que le résultat soit rapporté avec le nombre de chiffres significatifs nécessaires pour le rendre cohérent avec l'incertitude. Voir la section 7.2.2 ci-dessous

http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf

Le code suivant était ma tentative d'implémenter cette recommandation dans R. Noe que R peut ne pas coopérer avec les tentatives de conserver les zéros de fin en sortie, même s'ils sont significatifs.

gumr <- function(x.n,x.u) {
  z2 <- trunc(log10(x.u))+1
  z1 <- round(x.u/(10^z2),2)
  y1 <- round(x.n*10^(-z2),2)
  list(value=y1*10^z2,uncert=z1*10^z2)
}

x.val <- 8165.666
x.unc <- 338.9741
gumr(x.val,x.unc)
À M
la source
Pour être complet: > gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
rhombidodécaèdre
@rhombidodecahedron ne devrait-il pas y avoir ici un seul chiffre significatif? 82 ± 3 (× 10²)
jfs
@jfs la recommandation dit d'utiliser deux chiffres significatifs dans l'incertitude, n'est-ce pas?
rhombidodécaèdre
@rhombidodecahedron la réponse dit "pas plus de 2" Les critères de GUM ne sont pas clairs pour moi. Le tableau 3 de arxiv.org/pdf/1301.1034.pdf suggère 1 chiffre significatif à déclarer pour moins de 7 mesures.
jfs
L'exemple de code ne suit pas la règle GUM suggérée. Si val = 8165.666et unc = 338.9741, la mesure doit être signalée comme val = 8.17(34)*10^3(pas val = 8170avec unc = 340comme indiqué), pour indiquer clairement que seuls deux chiffres de l'incertitude sont significatifs.
divenex
6

Si vous affichez l'intervalle de confiance ainsi que la valeur de la statistique, il n'y a aucun problème à donner autant de chiffres significatifs que vous le souhaitez, car dans ce cas, un grand nombre de chiffres significatifs n'implique pas une précision fallacieuse comme l'intervalle de confiance donne une indication de la précision réelle probable (un intervalle crédible serait préférable). Il s'agit alors essentiellement de rendre le tableau soigné, concis et lisible, il est donc peu probable qu'il y ait une règle simple qui convienne à toutes les occasions.

La reproductibilité est importante dans les études scientifiques, donc idéalement, il devrait être possible de reproduire les résultats sur un nombre illimité de figures siginifcantes (qu'elles aient une signification pratique ou non). L'arrondi à un petit nombre de chiffres significatifs pourrait réduire la confiance dans la réplication d'une étude car les erreurs pourraient être masquées par l'arrondi des résultats, il y a donc un inconvénient possible à l'arrondi dans certaines circonstances.

Une autre raison de ne pas aller trop loin est que cela peut empêcher les autres de prolonger votre étude sans la répéter. Par exemple, je pourrais publier un article comparant divers algorithmes d'apprentissage automatique à l'aide du test de Friedman, qui dépend du classement des différents algorithmes sur un ensemble d'ensembles de données de référence. Si les statistiques pour les classificateurs individuels sur chaque ensemble de données sont données à un certain nombre de chiffres significatifs en fonction de leurs erreurs standard, cela créera sans aucun doute de nombreux liens apparents dans les classements. Cela signifie que (i) un lecteur / réviseur de l'article ne sera pas en mesure de reproduire le test de Friedman à partir des résultats donnés dans l'article et (ii) quelqu'un d'autre serait alors incapable d'évaluer son algorithme sur les ensembles de données de référence et d'utiliser le Friedman test pour le mettre dans le contexte des résultats de mon étude.

Dikran Marsupial
la source
4

Certes, toute décision, prise objectivement ou subjectivement, dépendrait fortement de ce que vous mesurez et de la précision de votre instrument de mesure. Ce dernier n'est qu'une partie de la variation observée et n'est pas toujours facile à discerner ou à trouver des preuves existantes. Je soupçonne donc fortement qu'il n'y a pas de décision objective et universellement applicable. Il vous suffit d'utiliser votre cerveau et de faire le meilleur jugement dans chaque situation.

DL Dahly
la source