Supposons que j'ai une variable dont la distribution est biaisée positivement à un très haut degré, de sorte que la prise du log ne sera pas suffisante pour la ramener dans la plage de biais pour une distribution normale. Quelles sont mes options à ce stade? Que puis-je faire pour transformer la variable en une distribution normale?
data-transformation
skewness
histelheim
la source
la source
Réponses:
Essayez la transformée Box-Cox droite selon Box, GEP et Cox, DR (1964), «An Analysis of Transformations», Journal of the Royal Statistical Society, Series B , 26, 211-234. SAS a la description de sa fonction loglik vraisemblance dans Normalisation des transformations , que vous pouvez utiliser pour trouver le λ optimalλ paramètre , qui est décrit dans Atkinson, AC (1985), Plots, Transformations, and Regression , New York: Oxford University Press.
Il est très facile de l'implémenter avec la fonction LL, ou si vous avez un package stat comme SAS ou MATLAB utilisez leurs commandes: c'est commande boxcox dans MATLAB et PROC TRANSREG dans SAS.
En outre, dans R, il s'agit du package MASS, fonction boxcox ().
la source
Pour l'inclinaison positive (la queue est à l'extrémité positive de l'axe des x), il y a la transformation de racine carrée, la transformation logarithmique et la transformation inverse / réciproque (par ordre de gravité croissante). Ainsi, si la transformation du journal n'est pas suffisante, vous pouvez utiliser le niveau de transformation suivant. Box Cox exécute automatiquement toutes les transformations afin que vous puissiez choisir la meilleure.
la source
La plupart des suites logicielles utiliseront le numéro d'Euler comme base de journal par défaut, AKA: journal naturel. Vous pouvez utiliser un nombre de base plus élevé pour limiter les données trop asymétriques vers la droite. La façon dont vous le faites sur le plan de la syntaxe dépend du logiciel que vous utilisez.
Si vous avez besoin de sortir de vos valeurs transformées une fois les estimations effectuées, il pourrait être un peu plus facile d'utiliser cette méthode car tout ce que vous avez à faire est d'effectuer un opérateur exponentiel sur votre variable avec quelle que soit votre base de journal.
la source