Nombre de chiffres significatifs à mettre dans un tableau?

13

Existe-t-il une règle bien fondée pour le nombre de chiffres importants à publier?

Voici quelques exemples / questions spécifiques:

  • Existe-t-il un moyen de relier le nombre de chiffres significatifs au coefficient de variation? Par exemple, si l'estimation est de 12,3 et que le CV est de 50%, cela signifie-t-il que les informations représentées par «.3» approchent de zéro?

  • Si un intervalle de confiance a une gamme d'ordres de grandeur, devrait-il toujours avoir le même nombre de chiffres significatifs, par exemple:

    12,3 (1,2, 123,4) vs 12 (1,2, 120)

  • Le nombre de chiffres significatifs dans une estimation d'erreur doit-il être identique ou inférieur au nombre de chiffres significatifs dans une moyenne?

David LeBauer
la source
Si vous le pouvez, n'utilisez pas de tableau :) Un graphique est, à l'OMI, presque toujours plus facile à lire qu'un tableau (il est évident que si vous n'avez pas beaucoup de chiffres). Les revues et leurs relecteurs ne sont pas toujours d'accord, malheureusement ...
JMS
3
@JMS Bon point, mais les tableaux sont utiles pour résumer les caractéristiques détaillées des unités statistiques (recoupées par un facteur d'intérêt, par exemple le diagnostic clinique ou autre), avec des variables de différents types (continu, nominal et ordinal), et d'autres résultats dérivés à partir de la modélisation statistique en soi (matrice de confusion, régression coef. etc.) qui ne rentre pas dans les figures (ou pas toujours si vous pensez à l'approche de Gelman pour montrer reg. coef. sous forme de diagrammes à points). Nous avons besoin des deux; la question est de savoir quand avons-nous vraiment besoin d'une figure au lieu d'une table, OMI.
chl
@chi Fair. Je l'ai dit presque toujours :). Des choses comme les grandes tables n-way sont impossibles à reproduire (complètement) graphiquement. Cela dépend du forum que je dirais. Les tableaux ont l'avantage d'être complets, bien sûr, mais votre lecteur absorbe-t-il réellement toutes ces informations supplémentaires? S'il y a trop de paramètres pour tenir dans un graphique, je dirais qu'un tableau est souvent au moins difficile à lire. Cependant, je pense que les résultats complets devraient être accessibles (en ligne, annexe, etc.) si ce n'est pour rien d'autre que la reproductibilité. Dans ce cas, j'aimerais aussi les données et le code! Wandered OT, désolé ..
JMS
Je pense aussi que les coefficients de régression et les matrices de confusion (corrélation, covariance, ...) sont généralement mieux adaptés à un affichage graphique, des points ou similaires pour les premiers et des cartes thermiques ou des graphiques pour les seconds.
JMS
@JMS Je suis d'accord avec votre point, mais dans ce cas il y a une limite de chiffre, dans d'autres cas il y a des frais de chiffre. De plus, dans ce cas, si les lecteurs regardent par-dessus la table et se concentrent sur les chiffres qui sont présentés, ils ne perdront pas de temps à essayer de comprendre le point d'une figure ésotérique. Mais je soutiens pleinement la reproductibilité, et pendant que j'y suis, je pourrais (si j'y arrive) ajouter une visualisation de la table au code qui est joint.
David LeBauer

Réponses:

19

Je doute qu'il existe une règle universelle, donc je ne vais pas en inventer. Je peux partager ces pensées et les raisons derrière elles:

  • Lorsque les résumés reflètent les données elles-mêmes - max, min, statistiques de commande, etc. - utilisez le même nombre de chiffres significatifs utilisés pour enregistrer les données en premier lieu. Cela fournit une représentation cohérente tout au long du document concernant la précision des données.

  • nn3n3030<n300

    -Notez que le CV ne fournit pas d' informations utiles à cet égard.

    -Quelques estimations peuvent être obtenues avec une grande précision. Ils n'ont pas besoin d'être arrondis pour correspondre à autre chose. Par exemple, la moyenne de 1 000 000 entiers pourrait être 10,977 avec une erreur standard de 0,00301. Ma décision d'écrire la moyenne à trois décimales (et 4 à 5 chiffres sig) était basée sur l'ordre de grandeur de l'ES, ce qui indique que le dernier chiffre est partiellement fiable. La décision d'écrire le SE dans trois figues sig (cinq décimales) est plus arbitraire: deux figues sig fonctionneraient; on ne le ferait probablement pas; quatre figues sig fonctionneraient également et seraient compatibles avec les 4-5 figues sig dans la moyenne; plus de quatre figues sig seraient excessives. (On pourrait estimer l'erreur-type de la SE elle-même en termes de quatrième moment des données, et l'utiliser pour déterminer une quantité appropriée d'arrondi, mais la plupart d'entre nous ne vont pas à de tels problèmes ...)

  • Signalez au lecteur que vous effectuez des arrondis substantiels . Soyez particulièrement prudent lorsque le rapport traite du test statistique lui-même . La raison en est que les gens peuvent utiliser votre travail pour vérifier leurs propres calculs. Parfois, même une légère différence peut révéler une erreur. Vous ne voulez pas causer de problèmes parce que vous avez arrondi 123 à 120 et que quelqu'un d'autre, en vérifiant le travail, obtient 123 et soupçonne l'un de vous d'avoir commis une erreur.

  • Soyez cohérent . Vous risquez de perdre certains lecteurs si vous répertoriez une valeur comme 123 à un moment donné et la référencez ultérieurement comme 120.

  • Ne sois pas ridicule . (Je soupçonne automatiquement l'incompétence lorsque je rencontre des rapports qui donnent des résultats statistiques à 15 figues sig lorsque les données n'ont que deux figues sig, par exemple.)

whuber
la source
2
Mon très gros +1 car c'est vraiment beaucoup de bons conseils. Dans le même ordre d'idées, j'aime montrer aux étudiants qu'il est vraiment inutile de résumer les données recueillies à partir d'enquêtes (ou de votes) en% avec beaucoup de décimales sans tenir compte de la taille de l'échantillon (ce qui a un impact sur l'erreur standard).
chl
0

Je suggère 12 (1.2, 123.4). Omettez le .3 car il n'a presque aucun sens, mais beaucoup de gens quand ils verront (1.2, 120) supposeront que le dernier «0» sur 120 est significatif.

AVB
la source
Pourquoi suggérez-vous d'omettre une décimale pour la statistique d'intérêt si vous acceptez de les afficher dans les IC (c.-à-d., Si cela n'a pas de sens pour 12, pourquoi est-ce logique pour 123,4)?
chl
@chl: cela n'a pas beaucoup de sens, mais l'omettre peut être trompeur. Si je mets 123.4, quelqu'un comme vous verra les chiffres supplémentaires et les ignorera, pas de mal. Si j'en mets 120, de nombreux lecteurs penseront que c'est exact à 3 chiffres - mauvais.
AVB
toujours pas clair pourquoi vous recommandez 123.4 au lieu de 123 (pourquoi omettre .3 mais pas .4 dans l'exemple?)
David LeBauer