Rétro-transformation des coefficients de régression

Je fais une régression linéaire avec une variable dépendante transformée. La transformation suivante a été effectuée pour que l'hypothèse de normalité des résidus soit maintenue. La variable dépendante non transformée a été biaisée négativement, et la transformation suivante l'a rendue proche de la normale:

Y = \sqrt{50 - Y_{o r i g}}

$Y=\sqrt{50-Y_{orig}}$

où est la variable dépendante de l'échelle d'origine. $Y_{orig}$

Je pense qu'il est logique d'utiliser une certaine transformation sur les coefficients pour revenir à l'échelle d'origine. En utilisant l'équation de régression suivante, $\beta$

Y = \sqrt{50 - Y_{o r i g}} = α + β \cdot X

$Y=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X$

et en fixant , on a $X=0$

α = \sqrt{50 - Y_{o r i g}} = \sqrt{50 - α_{o r i g}}

$\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}}$

Et enfin,

α_{o r i g} = 50 - α^{2}

$\alpha_{orig}=50-\alpha^2$

En utilisant la même logique, j'ai trouvé

β_{o r i g} = α (α - 2 β) + β^{2} + α_{o r i g} - 50

$\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50$

Maintenant, les choses fonctionnent très bien pour un modèle avec 1 ou 2 prédicteurs; les coefficients rétrotransformés ressemblent à ceux d'origine, seulement maintenant je peux faire confiance aux erreurs standard. Le problème survient lors de l'inclusion d'un terme d'interaction, tel que

Y = α + X_{1} β_{X_{1}} + X_{2} β_{X_{2}} + X_{1} X_{2} β_{X_{1} X_{2}}

$Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2}$

Ensuite, la rétrotransformation pour les s n'est pas si proche de celles de l'échelle d'origine, et je ne sais pas pourquoi cela se produit. Je ne sais pas non plus si la formule trouvée pour retransformer un coefficient bêta est utilisable comme c'est le cas pour le 3e (pour le terme d'interaction). Avant d'entrer dans l'algèbre folle, j'ai pensé demander conseil ... $\beta$ $\beta$

regression data-transformation Dominic Comtois
la source

Comment définissez-vous

α_{o r i g}

$\alpha_{orig}$

β_{o r i g}

$\beta_{orig}$

mark999

Comme la valeur de l'alpha et du bêta sur les échelles originales

Dominic Comtois

Mais qu'est ce que ça veut dire?

mark999

Je risquerais quelque chose comme: les estimations que nous obtiendrions étaient les données originales adaptées à la régression linéaire.

Dominic Comtois

Pour moi, cela semble être un concept dénué de sens. Je suis d'accord avec la réponse de Gung.

mark999

Réponses:

Un problème est que vous avez écrit

Y = α + β \cdot X

$Y=α+β⋅X$

Il s'agit d'un simple modèle déterministe (c'est-à-dire non aléatoire). Dans ce cas, vous pouvez retourner les coefficients sur l'échelle d'origine, car il ne s'agit que d'une simple algèbre. Mais, dans la régression habituelle, vous n'avez que ; vous avez laissé le terme d'erreur hors de votre modèle. Si la transformation de vers est non linéaire, vous pouvez avoir un problème puisque $E(Y|X)=α+β⋅X$ $Y$ $Y_{orig}$ , en général. Je pense que cela peut avoir à voir avec l'écart que vous voyez. $E\big(f(X)\big)≠f\big(E(X)\big)$

Modifier: notez que si la transformation est linéaire, vous pouvez revenir en arrière pour obtenir des estimations des coefficients sur l'échelle d'origine, car l'espérance est linéaire.

Macro
la source

+1 pour expliquer pourquoi nous ne pouvons pas transformer les bêtas en arrière.

gung - Rétablir Monica

Je salue vos efforts ici, mais vous aboyez le mauvais arbre. Vous ne soutenez pas la transformation des bêtas. Votre modèle tient dans le monde des données transformé. Si vous voulez faire une prédiction, par exemple, vous Reprenez , mais c'est tout. Bien sûr, vous pouvez également obtenir un intervalle de prédiction en calculant les valeurs limites hautes et basses, puis les retransformer également, mais en aucun cas ne retransformez-vous les bêtas. $\hat{y}_i$

gung - Réintégrer Monica
la source

Que penser du fait que les coefficients rétrotransformés deviennent très proches de ceux obtenus lors de la modélisation de la variable non transformée? Cela ne permet-il pas d'inférer sur l'échelle d'origine?

Dominic Comtois

Je ne sais pas exactement. Cela peut dépendre d'un certain nombre de choses. Ma première supposition est que vous avez de la chance avec vos premiers bêtas, mais votre chance s'épuise. Je dois accepter w / @ mark999 que "les estimations que nous obtiendrions étaient les données originales adaptées à la régression linéaire" n'a en fait aucun sens; Je souhaite que ce soit le cas et cela semble en quelque sorte rougir à première vue, mais malheureusement ce n'est pas le cas. Et il ne permet aucune inférence sur l'échelle d'origine.

gung - Rétablir Monica

@gung pour les transformations non linéaires (disons box cox): je peux retransformer les valeurs ajustées ainsi que les intervalles de prédiction, mais je ne peux pas transformer les bêtas ni les intervalles de coefficient pour les bêtas. Y a-t-il une limitation supplémentaire dont je devrais être conscient? btw, c'est un sujet très intéressant, où puis-je mieux comprendre?

mugen

@mugen, il est difficile de dire ce que vous devez savoir d'autre. Une chose à garder à l'esprit est que la transformation en arrière du y-hat vous donne la médiane conditionnelle alors que le y-hat non-transformé (bleck) est la moyenne conditionnelle. En dehors de cela, ce matériel devrait être couvert dans un bon manuel de régression.

gung - Réintégrer Monica

@mugen, vous êtes les bienvenus. N'hésitez pas à poser plus de questions via les mécanismes normaux (en cliquant ASK QUESTION); il y aura plus de ressources pour répondre, vous obtiendrez l'attention de plus de CVers, et l'information sera mieux accessible pour la postérité.

gung - Réintégrer Monica