Rétro-transformation des coefficients de régression

17

Je fais une régression linéaire avec une variable dépendante transformée. La transformation suivante a été effectuée pour que l'hypothèse de normalité des résidus soit maintenue. La variable dépendante non transformée a été biaisée négativement, et la transformation suivante l'a rendue proche de la normale:

Y=50Yorig

est la variable dépendante de l'échelle d'origine.Yorig

Je pense qu'il est logique d'utiliser une certaine transformation sur les coefficients pour revenir à l'échelle d'origine. En utilisant l'équation de régression suivante,β

Y=50Yorig=α+βX

et en fixant , on aX=0

α=50Yorig=50αorig

Et enfin,

αorig=50α2

En utilisant la même logique, j'ai trouvé

βorig=α (α2β)+β2+αorig50

Maintenant, les choses fonctionnent très bien pour un modèle avec 1 ou 2 prédicteurs; les coefficients rétrotransformés ressemblent à ceux d'origine, seulement maintenant je peux faire confiance aux erreurs standard. Le problème survient lors de l'inclusion d'un terme d'interaction, tel que

Y=α+X1βX1+X2βX2+X1X2βX1X2

Ensuite, la rétrotransformation pour les s n'est pas si proche de celles de l'échelle d'origine, et je ne sais pas pourquoi cela se produit. Je ne sais pas non plus si la formule trouvée pour retransformer un coefficient bêta est utilisable comme c'est le cas pour le 3e β (pour le terme d'interaction). Avant d'entrer dans l'algèbre folle, j'ai pensé demander conseil ...ββ

Dominic Comtois
la source
Comment définissez-vous et β o r i g ? αorigβorig
mark999
Comme la valeur de l'alpha et du bêta sur les échelles originales
Dominic Comtois
1
Mais qu'est ce que ça veut dire?
mark999
Je risquerais quelque chose comme: les estimations que nous obtiendrions étaient les données originales adaptées à la régression linéaire.
Dominic Comtois
2
Pour moi, cela semble être un concept dénué de sens. Je suis d'accord avec la réponse de Gung.
mark999

Réponses:

19

Un problème est que vous avez écrit

Y=α+βX

Il s'agit d'un simple modèle déterministe (c'est-à-dire non aléatoire). Dans ce cas, vous pouvez retourner les coefficients sur l'échelle d'origine, car il ne s'agit que d'une simple algèbre. Mais, dans la régression habituelle, vous n'avez que ; vous avez laissé le terme d'erreur hors de votre modèle. Si la transformation de Y vers Y o r i g est non linéaire, vous pouvez avoir un problème puisque E ( fE(Y|X)=α+βXYYorig , en général. Je pense que cela peut avoir à voir avec l'écart que vous voyez.E(f(X))f(E(X))

Modifier: notez que si la transformation est linéaire, vous pouvez revenir en arrière pour obtenir des estimations des coefficients sur l'échelle d'origine, car l'espérance est linéaire.

Macro
la source
4
+1 pour expliquer pourquoi nous ne pouvons pas transformer les bêtas en arrière.
gung - Rétablir Monica
15

Je salue vos efforts ici, mais vous aboyez le mauvais arbre. Vous ne soutenez pas la transformation des bêtas. Votre modèle tient dans le monde des données transformé. Si vous voulez faire une prédiction, par exemple, vous Reprenez y i , mais c'est tout. Bien sûr, vous pouvez également obtenir un intervalle de prédiction en calculant les valeurs limites hautes et basses, puis les retransformer également, mais en aucun cas ne retransformez-vous les bêtas. y^je

gung - Réintégrer Monica
la source
1
Que penser du fait que les coefficients rétrotransformés deviennent très proches de ceux obtenus lors de la modélisation de la variable non transformée? Cela ne permet-il pas d'inférer sur l'échelle d'origine?
Dominic Comtois
2
Je ne sais pas exactement. Cela peut dépendre d'un certain nombre de choses. Ma première supposition est que vous avez de la chance avec vos premiers bêtas, mais votre chance s'épuise. Je dois accepter w / @ mark999 que "les estimations que nous obtiendrions étaient les données originales adaptées à la régression linéaire" n'a en fait aucun sens; Je souhaite que ce soit le cas et cela semble en quelque sorte rougir à première vue, mais malheureusement ce n'est pas le cas. Et il ne permet aucune inférence sur l'échelle d'origine.
gung - Rétablir Monica
1
@gung pour les transformations non linéaires (disons box cox): je peux retransformer les valeurs ajustées ainsi que les intervalles de prédiction, mais je ne peux pas transformer les bêtas ni les intervalles de coefficient pour les bêtas. Y a-t-il une limitation supplémentaire dont je devrais être conscient? btw, c'est un sujet très intéressant, où puis-je mieux comprendre?
mugen
2
@mugen, il est difficile de dire ce que vous devez savoir d'autre. Une chose à garder à l'esprit est que la transformation en arrière du y-hat vous donne la médiane conditionnelle alors que le y-hat non-transformé (bleck) est la moyenne conditionnelle. En dehors de cela, ce matériel devrait être couvert dans un bon manuel de régression.
gung - Réintégrer Monica
3
@mugen, vous êtes les bienvenus. N'hésitez pas à poser plus de questions via les mécanismes normaux (en cliquant ASK QUESTION); il y aura plus de ressources pour répondre, vous obtiendrez l'attention de plus de CVers, et l'information sera mieux accessible pour la postérité.
gung - Réintégrer Monica