Dans l'analyse des résultats aux tests (par exemple, en éducation ou en psychologie), les techniques d'analyse courantes supposent souvent que les données sont normalement distribuées. Cependant, peut-être plus souvent qu'autrement, les scores ont tendance à s'écarter parfois sauvagement de la normale.
Je connais certaines transformations de normalisation de base, telles que: racines carrées, logarithmes, transformations réciproques pour réduire l'inclinaison positive, versions réfléchies de ce qui précède pour réduire l'inclinaison négative, quadrature pour les distributions leptokurtiques. J'ai entendu parler de transformations d'arc sinus et de transformations de puissance, bien que je ne les connaisse pas vraiment.
Donc, je suis curieux de savoir quelles autres transformations sont couramment utilisées par les analystes?
La première étape devrait être de demander pourquoi vos variables ne sont pas distribuées normalement. Cela peut être éclairant. Conclusions communes de mon expérience:
Cette première étape peut suggérer des modifications de conception au test. Si vous êtes conscient de ces problèmes à l'avance, vous pouvez même concevoir votre test pour les éviter, si vous les voyez comme problématiques.
La deuxième étape consiste à décider quoi faire dans la situation où vous avez des données non normales. Notez que les transformations ne sont qu'une stratégie possible. Je réitère les conseils généraux d'une réponse précédente concernant la non-normalité :
la source
John Tukey discute systématiquement des transformations dans son livre sur l'EDA. En plus de la famille Box-Cox (transformations de puissance à échelle affinée), il définit une famille de transformations "repliées" pour les proportions (essentiellement des puissances de x / (1-x)) et des comptes "commencés" (en ajoutant un décalage positif aux données comptées avant de les transformer). Les transformations pliées, qui généralisent essentiellement le logit, sont particulièrement utiles pour les résultats des tests.
Dans une veine complètement différente, Johnson & Kotz dans leurs livres sur les distributions offrent de nombreuses transformations destinées à convertir les statistiques de test en approximation de la normalité (ou en une autre distribution cible), telles que la transformation de racine cubique pour le chi carré. Ce matériel est une excellente source d'idées pour des transformations utiles lorsque vous prévoyez que vos données suivront une distribution spécifique.
la source
Une option simple consiste à utiliser des sommes de scores au lieu des scores eux-mêmes. La somme des distributions tend vers la normalité. Par exemple, dans Éducation, vous pouvez ajouter les scores d'un élève sur une série de tests.
Une autre option, bien sûr, consiste à utiliser des techniques qui ne supposent pas la normalité, qui sont sous-estimées et sous-utilisées.
la source
Maintenant, en tant que transformation de données, cela devient intéressant car la transformation est bijective (presque bijective pour le cas asymétrique) et peut être obtenue explicitement en utilisant la fonction W de Lambert (d'où le nom Lambert W x F). Cela signifie que nous pouvons supprimer l'asymétrie des données et également supprimer les queues lourdes (bijectivement!).
Vous pouvez l'essayer en utilisant le package LambertW R, avec le manuel montrant de nombreux exemples d'utilisation.
Pour les candidatures, voir ces articles
la source