Transformer des distributions extrêmement asymétriques

13

Supposons que j'ai une variable dont la distribution est biaisée positivement à un très haut degré, de sorte que la prise du log ne sera pas suffisante pour la ramener dans la plage de biais pour une distribution normale. Quelles sont mes options à ce stade? Que puis-je faire pour transformer la variable en une distribution normale?

histelheim
la source
2
Juste pour être sûr que "négatif asymétrique" signifie la longue queue pointant vers la gauche ou la droite? Si elle est vraiment biaisée négativement (longue queue à gauche), la transformation de journal ne fonctionnerait pas très bien.
Penguin_Knight
6
La transformation réciproque est plus forte que logarithmique et préserve souvent le sens, car les unités de mesure sont juste inversées. Par exemple, la réciproque du temps pour faire quelque chose est une sorte de vitesse, et vice versa. L'inverse de miles par gallon ou km par litre est logique. Les inverses inversent l'ordre et peuvent être annulées si cela est préférable. Ils font naturellement partie du système Box-Cox avec ce détail supplémentaire. Toutes les valeurs doivent être positives pour que cela fonctionne bien. (En principe, cela fonctionnerait avec toutes les valeurs négatives, mais je n'ai pas encore vu d'exemple dans la pratique.)
Nick Cox
2
@Aksakal Je ne vois pas comme une bonne idée. Le résultat n'est statistiquement significatif que pour les valeurs > 1 . Si les valeurs sont des nombres, il est artificiel qu'une transformation ne soit pas définie pour 0 ou 1, que ces valeurs se produisent ou non dans les données. Si les valeurs sont des mesures, la restriction signifie que la validité d'une transformation dépend du choix des unités de mesure, ce qui est absurde, comme si ln ( ln ( 0.7 ) ) ne peut pas être fait parce que j'utilise cm, mais ln ( ln ( 7 ) )ln(ln())>1ln(ln(0.7))ln(ln(7))peut être fait parce que j'utilise mm. (Ces logarithmes donnent des résultats complexes pour des arguments négatifs, je ne pense pas que cela aide statistiquement.)
Nick Cox
2
@Aksakal Trop fort pour dire "la transformation des journaux n'est pas un outil pour remédier à l'asymétrie": si l'asymétrie est le seul problème, les journaux fonctionnent souvent très bien. Si vous dites que l'asymétrie des distributions marginales n'est pas nécessairement un problème majeur, j'ai tendance à être d'accord.
Nick Cox
3
Je suis naturellement d'accord, mais si j'utilisais des carrés ou des logarithmes, je ne me sentirais pas obligé de proposer des références, et de même ici. Mais l'utilité des réciproques, en particulier les temps et les vitesses, a été soulignée par (par exemple) Tukey, JW 1977. Analyse des données exploratoires. Reading, MA: Addison-Wesley et dans plusieurs de ses articles. Les miles par gallon et les gallons par mile (ou inversement les litres par km et les km par litre) sont monnaie courante dans les discussions sur les données de performance des voitures. Les densités et leurs inverses sont des exemples assez standard en géographie et en démographie.
Nick Cox

Réponses:

13

Essayez la transformée Box-Cox droite selon Box, GEP et Cox, DR (1964), «An Analysis of Transformations», Journal of the Royal Statistical Society, Series B , 26, 211-234. SAS a la description de sa fonction loglik vraisemblance dans Normalisation des transformations , que vous pouvez utiliser pour trouver le λ optimalλ paramètre , qui est décrit dans Atkinson, AC (1985), Plots, Transformations, and Regression , New York: Oxford University Press.

Il est très facile de l'implémenter avec la fonction LL, ou si vous avez un package stat comme SAS ou MATLAB utilisez leurs commandes: c'est commande boxcox dans MATLAB et PROC TRANSREG dans SAS.

En outre, dans R, il s'agit du package MASS, fonction boxcox ().

Aksakal
la source
5

Pour l'inclinaison positive (la queue est à l'extrémité positive de l'axe des x), il y a la transformation de racine carrée, la transformation logarithmique et la transformation inverse / réciproque (par ordre de gravité croissante). Ainsi, si la transformation du journal n'est pas suffisante, vous pouvez utiliser le niveau de transformation suivant. Box Cox exécute automatiquement toutes les transformations afin que vous puissiez choisir la meilleure.

Sarah Thomas
la source
-5

La plupart des suites logicielles utiliseront le numéro d'Euler comme base de journal par défaut, AKA: journal naturel. Vous pouvez utiliser un nombre de base plus élevé pour limiter les données trop asymétriques vers la droite. La façon dont vous le faites sur le plan de la syntaxe dépend du logiciel que vous utilisez.

Si vous avez besoin de sortir de vos valeurs transformées une fois les estimations effectuées, il pourrait être un peu plus facile d'utiliser cette méthode car tout ce que vous avez à faire est d'effectuer un opérateur exponentiel sur votre variable avec quelle que soit votre base de journal.

Matthew Brooks
la source
6
e