Mon collègue veut analyser certaines données après avoir transformé la variable de réponse en la portant à la puissance de (c'est-à-dire ).
Je suis mal à l'aise avec cela, mais j'ai du mal à expliquer pourquoi. Je ne peux penser à aucune justification mécanique de cette transformation. Je ne l'ai jamais vu auparavant, et je crains que cela ne fasse peut-être augmenter les taux d'erreur de type I ou quelque chose comme ça - mais je n'ai rien pour étayer ces préoccupations!
De plus, mon collègue constate que ces modèles transformés surpassent les modèles non transformés dans une comparaison AIC. Cela justifie-t-il en soi son utilisation?
regression
data-transformation
aic
AndrewMacDonald
la source
la source
Réponses:
Il est courant d'appliquer des transformations de puissance (Tukey, Box-Cox) avec des valeurs arbitraires sur la réponse. De ce point de vue, je ne vois aucune préoccupation particulière concernant votre valeur de 1/8 - si cette transformation vous donne de bons résidus, allez-y.
Bien sûr, toute transformation change la relation fonctionnelle que vous ajustez, et il se peut que 1/8 n'a pas de sens mécaniquement, mais cela ne me dérangerait pas lorsque le but n'est pas d'extrapoler ou d'adapter les paramètres d'un physique loi, mais pour obtenir une valeur de p appropriée sur le signe de l'effet (je dirais que c'est le cas d'utilisation normal dans une régression). À cette fin, votre seule préoccupation est que la fonction s'adapte aux données dans le domaine de vos valeurs de prédicteur (moyenne wrt et variation résiduelle), et c'est facile à vérifier.
Si vous n'êtes pas sûr de la meilleure valeur pour la transformation de puissance et souhaitez comparer les différentes options, vous ne devez pas comparer directement les valeurs AIC / vraisemblance car la transformation de puissance modifie l'échelle de la réponse. Heureusement, il s'avère qu'il est relativement simple de calculer une correction pour la transformation, de sorte que différentes transformations peuvent être comparées via leur probabilité (corrigée) (voir, par exemple ici ).
Dans R, cela est implémenté dans MASS :: boxcox - c'est un moyen pratique de choisir la bonne valeur pour la puissance.
la source