Quelles autres transformations de normalisation sont couramment utilisées au-delà des transformations courantes comme la racine carrée, le log, etc.?

10

Dans l'analyse des résultats aux tests (par exemple, en éducation ou en psychologie), les techniques d'analyse courantes supposent souvent que les données sont normalement distribuées. Cependant, peut-être plus souvent qu'autrement, les scores ont tendance à s'écarter parfois sauvagement de la normale.

Je connais certaines transformations de normalisation de base, telles que: racines carrées, logarithmes, transformations réciproques pour réduire l'inclinaison positive, versions réfléchies de ce qui précède pour réduire l'inclinaison négative, quadrature pour les distributions leptokurtiques. J'ai entendu parler de transformations d'arc sinus et de transformations de puissance, bien que je ne les connaisse pas vraiment.

Donc, je suis curieux de savoir quelles autres transformations sont couramment utilisées par les analystes?

Mike Wong
la source

Réponses:

5

La transformation Box-Cox inclut bon nombre de celles que vous avez citées. Voir cette réponse pour quelques détails:

MISE À JOUR: Ces diapositives fournissent un assez bon aperçu des transformations Box-Cox.

ars
la source
Si nous appliquons des outils t aux données transformées de Box-Cox, nous obtiendrons des inférences sur la différence de moyenne des données transformées. Comment pouvons-nous les interpréter sur l'échelle de mesure d'origine? (La moyenne des valeurs transformées n'est pas la moyenne transformée). En d'autres termes (si je ne me trompe pas), prendre la transformée inverse de l'estimation de la moyenne, sur l'échelle transformée, ne donne pas d'estimation de la moyenne sur l'échelle d'origine.
George Dontas
@ gd047, certains tests supposent la normalité de la distribution de la moyenne, pas des données. t-test a tendance à être assez robuste par rapport aux données sous-jacentes. Vous avez cependant raison: avec les tests de post-transformation, les résultats sont rapportés après transformation inverse et l'interprétation peut être très problématique. Cela revient à dire à quel point vos données sont «anormales», pouvez-vous vous en sortir sans transformer ou appliquer, disons, une transformation de journal plus facile à interpréter. Sinon, c'est contextuel sur la transformation et le domaine réels et je n'ai pas vraiment de bonne réponse. Cela vaut-il la peine de demander ce que les autres disent?
ars
10

La première étape devrait être de demander pourquoi vos variables ne sont pas distribuées normalement. Cela peut être éclairant. Conclusions communes de mon expérience:

  • Les tests de capacité (p. Ex. Examens, tests d'intelligence, tests d'admission) ont tendance à être biaisés négativement lorsqu'il y a des effets de plafond et à fausser positivement lorsqu'il y a des effets de plancher. Les deux résultats suggèrent que le niveau de difficulté du test n'est pas optimisé pour l'échantillon, soit trop facile soit trop difficile pour différencier de manière optimale la capacité. Cela implique également que la variable d'intérêt latente pourrait toujours être normalement distribuée, mais que la structure du test induit un biais dans la variable mesurée.
  • Les tests de capacité ont souvent des valeurs aberrantes en termes de scores faibles. En bref, il existe de nombreuses façons de mal faire un test. En particulier, cela peut parfois être vu sur les examens où il y a un petit pourcentage d'étudiants où une combinaison de manque d'aptitude et de manque d'effort s'est combinée pour créer des scores de test très bas. Cela implique que la variable d'intérêt latente a probablement quelques valeurs aberrantes.
  • En ce qui concerne les tests d'auto-évaluation (par exemple, tests de personnalité, tests d'attitude, etc.), le biais se produit souvent lorsque l'échantillon est intrinsèquement élevé sur l'échelle (par exemple, les distributions de la satisfaction à l'égard de la vie sont biaisées négativement parce que la plupart des gens sont satisfaits) ou lorsque l'échelle a été optimisé pour un échantillon différent de celui auquel le test est appliqué (par exemple, l'application d'une mesure clinique de la dépression à un échantillon non clinique).

Cette première étape peut suggérer des modifications de conception au test. Si vous êtes conscient de ces problèmes à l'avance, vous pouvez même concevoir votre test pour les éviter, si vous les voyez comme problématiques.

La deuxième étape consiste à décider quoi faire dans la situation où vous avez des données non normales. Notez que les transformations ne sont qu'une stratégie possible. Je réitère les conseils généraux d'une réponse précédente concernant la non-normalité :

  • De nombreuses procédures qui supposent la normalité des résidus sont robustes à des violations modestes de la normalité des résidus
  • Le bootstrap est généralement une bonne stratégie
  • Les transformations sont une autre bonne stratégie. Notez que d'après mon expérience, les types de biais légers qui se produisent couramment avec les tests psychologiques de capacité et d'auto-évaluation peuvent généralement être assez facilement transformés en une distribution se rapprochant de la normalité en utilisant un log, sqrt ou une transformation inverse (ou l'équivalent inversé).
Jeromy Anglim
la source
9

John Tukey discute systématiquement des transformations dans son livre sur l'EDA. En plus de la famille Box-Cox (transformations de puissance à échelle affinée), il définit une famille de transformations "repliées" pour les proportions (essentiellement des puissances de x / (1-x)) et des comptes "commencés" (en ajoutant un décalage positif aux données comptées avant de les transformer). Les transformations pliées, qui généralisent essentiellement le logit, sont particulièrement utiles pour les résultats des tests.

Dans une veine complètement différente, Johnson & Kotz dans leurs livres sur les distributions offrent de nombreuses transformations destinées à convertir les statistiques de test en approximation de la normalité (ou en une autre distribution cible), telles que la transformation de racine cubique pour le chi carré. Ce matériel est une excellente source d'idées pour des transformations utiles lorsque vous prévoyez que vos données suivront une distribution spécifique.

whuber
la source
2

Une option simple consiste à utiliser des sommes de scores au lieu des scores eux-mêmes. La somme des distributions tend vers la normalité. Par exemple, dans Éducation, vous pouvez ajouter les scores d'un élève sur une série de tests.

Une autre option, bien sûr, consiste à utiliser des techniques qui ne supposent pas la normalité, qui sont sous-estimées et sous-utilisées.

Carlos Accioly
la source
1
Je crois que les sommes doivent être normalisées (par exemple, utiliser le score moyen) pour que la distribution tende à la normalité.
1
Oui c'est correct. Dans mon exemple, j'ai supposé que les classes auraient le même nombre d'élèves, ce qui n'est pas réaliste. Je vous remercie.
Carlos Accioly
1

XFY LambertW×F

XN(μ,σ2)θ=(μx,σx,δ,α)α1

Maintenant, en tant que transformation de données, cela devient intéressant car la transformation est bijective (presque bijective pour le cas asymétrique) et peut être obtenue explicitement en utilisant la fonction W de Lambert (d'où le nom Lambert W x F). Cela signifie que nous pouvons supprimer l'asymétrie des données et également supprimer les queues lourdes (bijectivement!).

Vous pouvez l'essayer en utilisant le package LambertW R, avec le manuel montrant de nombreux exemples d'utilisation.

Pour les candidatures, voir ces articles

Georg M. Goerg
la source