Une transformation de journal est-elle une technique valide pour tester les données non normales?

19

En examinant un article, les auteurs déclarent que «les variables de résultats continus présentant une distribution asymétrique ont été transformées, en utilisant les logarithmes naturels, avant que les tests t ne soient effectués pour satisfaire aux hypothèses préalables de normalité».

Est-ce une façon acceptable d'analyser des données non normales, en particulier si la distribution sous-jacente n'est pas nécessairement log-normale?

C'est peut-être une question très stupide, mais je n'ai jamais vu cela se faire auparavant ...

CLS
la source
3
Eh bien, si la distribution initiale n'est pas log-normale, alors les données transformées ne satisfont pas aux hypothèses préalables de normalité, alors qu'est-ce qui est gagné par la transformation?
Macro
@Macro - c'est vrai! (+1) - ils voulaient probablement simplement rapprocher les distributions de symétriques, ce qui n'est pas une mauvaise chose à faire pour le test t, mais, à moins qu'ils ne l'aient vérifié et écrit, nous ne savons pas si le journal la transformation a induit un biais négatif qui aurait pu aggraver les choses ...
jbowman
2
Nous pourrions en déduire que, comme cela a été fait pour satisfaire la normalité, et que la normalité a été vérifiée en premier lieu, cette normalité a été vérifiée par la suite. C'est fortement implicite dans le langage ici.
John
10
Un test t pour les logarithmes n'est ni le même qu'un test t pour les données non transformées ni un test non paramétrique. Le test t sur les journaux compare les moyennes géométriques et non les moyennes arithmétiques (habituelles). C'est l'une des nombreuses considérations importantes pour décider si l'utilisation des logarithmes est acceptable (ce qui peut être, selon l'application).
whuber

Réponses:

9

Il est courant d'essayer d'appliquer une sorte de transformation à la normalité (en utilisant par exemple des logarithmes, des racines carrées, ...) lorsqu'ils sont rencontrés avec des données qui ne sont pas normales. Bien que le logarithme donne de bons résultats pour des données asymétriques assez souvent, rien ne garantit qu'il fonctionnera dans ce cas particulier. Il faut également garder à l'esprit le commentaire @whubers ci-dessus lors de l'analyse des données transformées: "Un test t pour les logarithmes n'est ni le même qu'un test t pour les données non transformées ni un test non paramétrique. Le test t sur les journaux compare les géométries signifie pas les moyens arithmétiques (habituels). "

Les transformations vers la normalité doivent toujours être suivies d'une enquête sur l'hypothèse de normalité, afin d'évaluer si les données transformées semblent "assez normales". Cela peut être fait en utilisant par exemple des histogrammes, des tracés QQ et des tests de normalité. Le test t est particulièrement sensible aux écarts par rapport à la normalité sous forme d'asymétrie et, par conséquent, un test de normalité orienté vers des alternatives d'asymétrie serait préférable. Écart d'échantillonnage de Pearson est une statistique de test appropriée dans ce cas.n-1je=1n(Xje-X¯)3(n-1je=1n(Xje-X¯)2)3/2

Plutôt que de choisir une transformation (comme les logarithmes) car cela fonctionne la plupart du temps, je préfère utiliser la procédure Box-Cox pour choisir une transformation en utilisant les données données. Il y a cependant quelques problèmes philosophiques avec cela; en particulier si cela devrait affecter le nombre de degrés de liberté dans le test t, car nous avons utilisé certaines informations de l'échantillon lors du choix de la transformation à utiliser.

Enfin, une bonne alternative à l'utilisation du test t après une transformation ou d'un test non paramétrique classique consiste à utiliser l' analogue bootstrap du test t. Il ne nécessite pas l'hypothèse de normalité et est un test sur les moyens non transformés (et pas sur autre chose).

MånsT
la source
1
+1 Bonne discussion réfléchie avec une bonne recommandation à la fin. Pour plus d'informations sur la version bootstrap / resampling / permutation du t-test, veuillez consulter un fil récent sur stats.stackexchange.com/q/24911 .
whuber
0

D'une manière générale, si les hypothèses requises pour effectuer un test t ne sont pas remplies, il serait plus approprié d'utiliser un test non paramétrique.

user7045
la source
5
Peut être. Les tests non paramétriques comparent presque toujours les médianes (ou d'autres centiles) plutôt que les moyennes et répondent donc vraiment à une question légèrement différente. Mais cela ne semble pas être une réponse utile à la question actuelle, qui demande spécifiquement (et uniquement) de tester les journaux des données.
whuber