Les root sont-elles recommandées?

12

Mon collègue veut analyser certaines données après avoir transformé la variable de réponse en la portant à la puissance de (c'est-à-dire ).18y0.125

Je suis mal à l'aise avec cela, mais j'ai du mal à expliquer pourquoi. Je ne peux penser à aucune justification mécanique de cette transformation. Je ne l'ai jamais vu auparavant, et je crains que cela ne fasse peut-être augmenter les taux d'erreur de type I ou quelque chose comme ça - mais je n'ai rien pour étayer ces préoccupations!

De plus, mon collègue constate que ces modèles transformés surpassent les modèles non transformés dans une comparaison AIC. Cela justifie-t-il en soi son utilisation?

AndrewMacDonald
la source
9
Juste pour info, ressemble beaucoup à pour de nombreuses plages de . La transformation logarithmique est souvent justifiée dans de nombreux cas (mais également souvent utilisée dans des cas non justifiés). y1/8log(y)y
Cliff AB
2
Ceci est une discussion connexe
user603
5
Vous ne pouvez pas comparer de manière significative les AIC entre des modèles avec des variables dépendantes transformées. (Transformer la variable indépendante est très bien.)
Stephan Kolassa
5
@CliffAB a raison. La principale différence pratique entre les petits pouvoirs positifs et le logarithme est que vous pouvez prendre des pouvoirs de zéro. Quand il y a quelques zéros dans les données (peut-être à cause de l'imprécision dans la façon dont les nombres ont été enregistrés), parfois une petite puissance (0,1 ou même 0,01) remplace le logarithme. (Mieux encore: utilisez la transformation de Box-Cox pour les petits .) Étant donné que très peu de lois naturelles impliquent une puissance 1/8, cependant, et beaucoup impliquent des phénomènes exponentiels, l'utilisation d'un journal peut fournissent parfois une meilleure compréhension et une meilleure interprétabilité qu'une petite puissance. y=(xp1)/pp
whuber
3
Ceci est un petit riff sur l'idée que cette transformation peut remplacer les logarithmes si des zéros se produisent. Un lien logarithmique pour les modèles linéaires généralisés indique que les réponses moyennes varient de façon exponentielle mais ne suppose pas que toutes leurs valeurs sont positives. Il tolère donc certains zéros dans les données. En gros, cela implique qu'ils devraient ou seraient positifs s'ils le pouvaient: par exemple, les zéros signalés (zéro échantillon dans l'échantillon, zéro concentration selon la machine) signifient parfois non détecté. Malgré son merveilleux nom, Box-Cox semble survendu chaque fois qu'il existe un lien naturel dans les GLM.
Nick Cox

Réponses:

10

Il est courant d'appliquer des transformations de puissance (Tukey, Box-Cox) avec des valeurs arbitraires sur la réponse. De ce point de vue, je ne vois aucune préoccupation particulière concernant votre valeur de 1/8 - si cette transformation vous donne de bons résidus, allez-y.

Bien sûr, toute transformation change la relation fonctionnelle que vous ajustez, et il se peut que 1/8 n'a pas de sens mécaniquement, mais cela ne me dérangerait pas lorsque le but n'est pas d'extrapoler ou d'adapter les paramètres d'un physique loi, mais pour obtenir une valeur de p appropriée sur le signe de l'effet (je dirais que c'est le cas d'utilisation normal dans une régression). À cette fin, votre seule préoccupation est que la fonction s'adapte aux données dans le domaine de vos valeurs de prédicteur (moyenne wrt et variation résiduelle), et c'est facile à vérifier.

Si vous n'êtes pas sûr de la meilleure valeur pour la transformation de puissance et souhaitez comparer les différentes options, vous ne devez pas comparer directement les valeurs AIC / vraisemblance car la transformation de puissance modifie l'échelle de la réponse. Heureusement, il s'avère qu'il est relativement simple de calculer une correction pour la transformation, de sorte que différentes transformations peuvent être comparées via leur probabilité (corrigée) (voir, par exemple ici ).

Dans R, cela est implémenté dans MASS :: boxcox - c'est un moyen pratique de choisir la bonne valeur pour la puissance.

Florian Hartig
la source