Comment interpréter les coefficients de régression lorsque la réponse a été transformée par la 4ème racine?

20

J'utilise la quatrième 1/4transformation de puissance root ( ) sur ma variable de réponse, en raison de l'hétéroscédasticité. Mais maintenant, je ne sais pas comment interpréter mes coefficients de régression.

Je suppose que j'aurais besoin de prendre les coefficients à la quatrième puissance lors de la rétrotransformation (voir ci-dessous la sortie de régression). Toutes les variables sont en unités de dollars en millions, mais j'aimerais connaître la variation en dollars en milliards.

Tout en maintenant l'autre variable indépendante constante, une variation des honoraires d'un milliard de dollars, en moyenne, entraîne une variation 32(ou 32 000 dollars) des collections. Je prends 0.000075223 * 1000(pour arriver à des milliards) ^ 4 = 0.000032. Maintenant, je multiplie ce nombre par 1 million ou 1 milliard (l'unité d'origine de la variable dépendante est en millions)?

lm(formula = (Collections^(1/4)) ~ Fees + DIR)

                 Estimate      Std. Error  t value            Pr(>|t|)
(Intercept)   2.094573355     0.112292375   18.653  0.0000000000000151
Fees        **0.000075223   **0.000008411    8.943  0.0000000131878713
DIR           0.000022279     0.000004107    5.425  0.0000221138881913
user13968
la source
4
Vous voudrez peut-être lire ceci: rétro-transformation-des-coefficients de régression .
gung - Rétablir Monica

Réponses:

24

La meilleure solution est, au départ, de choisir une ré-expression qui a un sens dans le domaine d'étude.

(Par exemple, lors de la régression des poids corporels par rapport à des facteurs indépendants, il est probable qu'une racine cubique ( puissance) ou une racine carrée ( puissance) sera indiquée. Notant que le poids est un bon indicateur indirect du volume, le cube racine est une longueur représentant une taille linéaire caractéristique. Cela lui confère une signification intuitive et potentiellement interprétable. Bien que la racine carrée elle-même n'ait pas une telle interprétation claire, elle est proche de la puissance , qui a des dimensions de surface : elle peut correspondre à la surface totale de la peau.)1 / 2 2 / trois1/31/22/3

Le quatrième pouvoir est suffisamment proche du logarithme pour que vous devriez envisager d'utiliser le journal à la place , dont les significations sont bien comprises. Mais parfois, nous constatons vraiment qu'une racine cubique ou racine carrée ou une telle puissance fractionnaire fait un excellent travail et n'a pas d'interprétation évidente. Ensuite, nous devons faire un peu d'arithmétique.

Le modèle de régression présenté dans la question implique une variable dépendante ("Collections") et deux variables indépendantes ("Frais") et ("DIR"). Il postule queX 1 X 2YX1X2

Y1/4=β0+β1X1+β2X2+ε.

Le code estime comme , comme et comme . Il suppose également que est normal avec une moyenne nulle et il estime leur variance commune (non représentée). Avec ces estimations, la valeur ajustée de estb 0 = 2,094573355 β 1 b 1 = 0,000075223 β 2 b 2 = 0,000022279 ε Y 1 / 4β0b0=2.094573355β1b1=0.000075223β2b2=0.000022279εY1/4

Y1/4^=b0+b1X1+b2X2.

"Interpréter" les coefficients de régression signifie normalement déterminer quel changement dans la variable dépendante est suggéré par un changement donné dans chaque variable indépendante. Ces modifications sont les dérivées , dont la règle de chaîne nous dit sont égales à . Nous brancherions alors les estimations et dirions quelque chose comme 4 β i Y 3dY/dXi4βiY3

La régression estime qu'un changement d'unité dans sera associé à un changement dans de = . Y 4 b i Y 3 4 b i ( b 0 + b 1 x 1 + b 2 X 2 ) 3XiY4biY^34bi(b0+b1X1+b2X2)3

La dépendance de l'interprétation sur et ne s'exprime pas simplement en mots,X 2X1X2 contrairement aux situations sans transformation de (un changement d'unité dans est associé à un changement de dans ) ou avec le logarithme (un changement d'un pour cent dans est associée à une de pour cent en ). Cependant, en conservant la première forme d'interprétation et en calculant = = , nous pourrions indiquer quelque chose commeX i b i Y X i b i Y 4 b 1 4 × 0,000075223 0,000301YXibiYXibiY4b14×0.0000752230.000301

Une variation unitaire des frais est associée à une variation des collections de fois le cube des collections actuelles; par exemple, si les collections actuelles sont de , alors une augmentation unitaire des frais est associée à une augmentation de dans les collections et si les collections actuelles sont de , alors la même augmentation unitaire des frais est associée à une augmentation de dans les collections.10 0,301 20 2,410.000301100.301202.41


Lorsque vous prenez des racines autres que la quatrième - disons, lorsque vous utilisez comme réponse plutôt que lui-même, avec non nul - remplacez simplement toutes les apparences de " " dans cette analyse par " ". Y p 4 1 / pYpYp41/p

whuber
la source
12

Une alternative à la transformation consiste à utiliser un modèle linéaire généralisé avec puissance de fonction de liaison et puissance 1/4. La famille d'erreurs à utiliser est ouverte, ce qui vous donne plus de flexibilité que vous n'en avez avec une régression linéaire et une hypothèse de normalité conditionnelle. Un avantage majeur de cette procédure est que les prédictions sont automatiquement produites sur l'échelle de mesure d'origine, il n'est donc pas question de rétrotransformation.

Nick Cox
la source
4

J'ai vu des articles utilisant des coefficients de régression de racine quartique pour réfléchir aux changements de pourcentage, tout en évitant de prendre des journaux (et de supprimer des observations).

Si nous sommes intéressés à utiliser des racines quartiques pour calculer les variations en pourcentage, nous savons que:

Oui^=(α+β^1X1+β^2X2)4Oui^X1=4β^1(α+β^1X1+β^2X2)3

Pour l'équivalent d'une régression au niveau logarithmique, dans laquelle nous sommes intéressés par la variation en pourcentage de résultant d'un changement d'unité de , nous devons connaître les niveaux de toutes les variables :OuiXX

Oui^/X1Oui=4β^1α+β^1X1+β^2X2

Pour l'équivalent d'une régression log-log, dans laquelle nous sommes intéressés par le pourcentage en résultant d'une variation en pourcentage de , nous aurions:XOuiX

Oui^X1X1Oui^=4β^1X1α+β^1X1+β^2X2

Cela ne semble pas particulièrement pratique (je préfère la transformation logarithmique), mais cela peut être fait, soit en évaluant les valeurs moyennes de l'échantillon, soit à des valeurs hypothétiques. X

Je suppose qu'en fait, vous pourriez remplacer le dénominateur par la valeur moyenne de l'échantillon de , et ce serait un peu plus pratique.Oui1/4

user68005
la source