La visualisation est-elle une justification suffisante pour transformer les données?

13

Problème

Je voudrais tracer la variance expliquée par chacun des 30 paramètres, par exemple sous forme de graphique à barres avec une barre différente pour chaque paramètre, et la variance sur l'axe y:

texte alternatif

Cependant, les variances sont fortement biaisées vers de petites valeurs, y compris 0, comme on peut le voir dans l'histogramme ci-dessous:

texte alternatif

Si je les transforme par , il sera plus facile de voir les différences entre les petites valeurs (histogramme et barplot ci-dessous):Journal(X+1)

texte alternatiftexte alternatif

Question

Journal(X+1)

David LeBauer
la source

Réponses:

13

Certains ont appelé cela un « logarithme démarré » ( par exemple , John Tukey). (Pour certains exemples, Google john tukey "a commencé le journal" .)

C'est parfaitement bien à utiliser. En fait, vous pouvez vous attendre à devoir utiliser une valeur de départ non nulle pour tenir compte de l'arrondi de la variable dépendante. Par exemple, l'arrondi de la variable dépendante à l'entier le plus proche réduit effectivement 1/12 de sa vraie variance, suggérant qu'une valeur de départ raisonnable devrait être d'au moins 1/12. (Cette valeur ne fait pas un mauvais travail avec ces données. L'utilisation d'autres valeurs au-dessus de 1 ne change pas vraiment l'image; elle augmente simplement toutes les valeurs dans le graphique en bas à droite presque uniformément.)

Il y a des raisons plus profondes d'utiliser le logarithme (ou journal commencé) pour évaluer la variance: par exemple, la pente d'un graphique de variance par rapport à la valeur estimée sur une échelle log-log estime un paramètre de Box-Cox pour stabiliser la variance . De tels ajustements de variance selon la loi de puissance à une variable connexe sont souvent observés. (Il s'agit d'une déclaration empirique et non théorique.)

Si votre objectif est de présenter les écarts, procédez avec prudence. De nombreux publics (en dehors des scientifiques) ne peuvent pas comprendre un logarithme, encore moins un logarithme. L'utilisation d'une valeur de départ de 1 au moins a le mérite d'être un peu plus simple à expliquer et à interpréter qu'une autre valeur de départ. Quelque chose à considérer est de tracer leurs racines, qui sont les écarts-types, bien sûr. Cela ressemblerait à quelque chose comme ceci:

texte alternatif

Quoi qu'il en soit, si votre but est d'explorer les données, d'en tirer des leçons, d'adapter un modèle ou d'évaluer un modèle, alors ne laissez rien vous empêcher de trouver des représentations graphiques raisonnables de vos données et des valeurs dérivées des données tels que ces écarts.

whuber
la source
1
merci pour l'explication et la terminologie / référence appropriée. Le public est le lecteur d'une revue scientifique et le sujet est la décomposition de la variance; comprendre le concept d'une transformation logarithmique est une condition préalable mais je ne savais toujours pas si cette présentation nécessitait une justification supplémentaire - les racines sont une bonne alternative. Merci.
David LeBauer
3

Cela peut être raisonnable. La meilleure question à poser est de savoir si 1 est le nombre approprié à ajouter. Quel était ton minimum? Si c'était 1 pour commencer, alors vous imposez un intervalle particulier entre les éléments avec une valeur de zéro et ceux avec la valeur 1. Selon le domaine d'étude, il peut être plus judicieux de choisir 0,5 ou 1 / e comme décalage. L'implication d'une transformation en échelle logarithmique est que vous avez maintenant une échelle de rapport.

Mais je suis gêné par les complots. Je voudrais savoir si un modèle qui présente la majeure partie de la variance expliquée dans la queue d'une distribution asymétrique peut être considéré comme ayant des propriétés statistiques souhaitables. Je crois que non.

DWin
la source
Je ne sais pas si c'est clair, mais les histogrammes sont des 30 valeurs de variance, et les graphiques à barres sont les valeurs brutes de la variance, c'est var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)-à- dire , donc j'interprète cela comme quelques paramètres expliquent la plupart de la variance, pas la plupart de la variance expliquée est dans la queue. Est-ce que ça fait plus de sens? Désolé si ce n'était pas clair.
David LeBauer