En examinant un article, les auteurs déclarent que «les variables de résultats continus présentant une distribution asymétrique ont été transformées, en utilisant les logarithmes naturels, avant que les tests t ne soient effectués pour satisfaire aux hypothèses préalables de normalité».
Est-ce une façon acceptable d'analyser des données non normales, en particulier si la distribution sous-jacente n'est pas nécessairement log-normale?
C'est peut-être une question très stupide, mais je n'ai jamais vu cela se faire auparavant ...
Réponses:
Il est courant d'essayer d'appliquer une sorte de transformation à la normalité (en utilisant par exemple des logarithmes, des racines carrées, ...) lorsqu'ils sont rencontrés avec des données qui ne sont pas normales. Bien que le logarithme donne de bons résultats pour des données asymétriques assez souvent, rien ne garantit qu'il fonctionnera dans ce cas particulier. Il faut également garder à l'esprit le commentaire @whubers ci-dessus lors de l'analyse des données transformées: "Un test t pour les logarithmes n'est ni le même qu'un test t pour les données non transformées ni un test non paramétrique. Le test t sur les journaux compare les géométries signifie pas les moyens arithmétiques (habituels). "
Les transformations vers la normalité doivent toujours être suivies d'une enquête sur l'hypothèse de normalité, afin d'évaluer si les données transformées semblent "assez normales". Cela peut être fait en utilisant par exemple des histogrammes, des tracés QQ et des tests de normalité. Le test t est particulièrement sensible aux écarts par rapport à la normalité sous forme d'asymétrie et, par conséquent, un test de normalité orienté vers des alternatives d'asymétrie serait préférable. Écart d'échantillonnage de Pearson est une statistique de test appropriée dans ce cas.n- 1∑nje = 1( xje- x¯)3( n- 1∑ni = 1( xje- x¯)2)3 / 2
Plutôt que de choisir une transformation (comme les logarithmes) car cela fonctionne la plupart du temps, je préfère utiliser la procédure Box-Cox pour choisir une transformation en utilisant les données données. Il y a cependant quelques problèmes philosophiques avec cela; en particulier si cela devrait affecter le nombre de degrés de liberté dans le test t, car nous avons utilisé certaines informations de l'échantillon lors du choix de la transformation à utiliser.
Enfin, une bonne alternative à l'utilisation du test t après une transformation ou d'un test non paramétrique classique consiste à utiliser l' analogue bootstrap du test t. Il ne nécessite pas l'hypothèse de normalité et est un test sur les moyens non transformés (et pas sur autre chose).
la source
D'une manière générale, si les hypothèses requises pour effectuer un test t ne sont pas remplies, il serait plus approprié d'utiliser un test non paramétrique.
la source