Pourquoi

8

Les deux réponses dans ces fils, un et deux affirment queYdoit être transformé avant d' appliquer toute autre transformation aux prédicteurs. En effet, le chapitre Weisberg sur les transformations se concentre davantage sur DV que sur les prédicteurs, tout comme la page de manuel power carform () du package R car.

Cependant, nous savons que la normalité de la distribution DV n'est pas une exigence dans OLS pour estimer les coefficients BLEUS et, même lorsque les résidus ne sont pas strictement distribués normalement, OLS est toujours un estimateur raisonnable .

Alors pourquoi l'accent mis sur la transformation Y? Il y a plusieurs raisons pour lesquelles je pense qu'il est préférable de ne pas transformerY: tout d'abord, il rend la relation IV plus difficile à lire et deuxièmement, en prévision, il nécessite une rétrotransformation de la valeur estimée à l'original Yéchelle. Selon ce que vous faites, cela peut être un problème.

Robert Kubrick
la source
2
Nous avons des modèles linéaires généralisés en nom depuis 1972 et dans des cas particuliers depuis bien plus longtemps. Autrement dit, l'utilisation des fonctions de lien appropriées peut vous donner tous les avantages d'utiliser une échelle non linéaire avec tous les avantages d'obtenir des prédictions sur l'échelle des données d'origine. Pourquoi cela n'est-il pas plus largement connu et pratiqué? Des réponses plus longues sont nécessaires et seront à venir, mais l'analyse des relations non linéaires avec des outils linéaires appliqués à des données non transformées fonctionne rarement bien.
Nick Cox
1
+1 à @Nick. De plus, l'analyse des relations avec presque toutes les procédures standard (c'est-à-dire basées sur des distributions presque normales) dans des circonstances où la distribution des erreurs est fortement asymétrique est généralement compliquée et insatisfaisante également. Les ré-expressions non linéaires réalisent en fait trois choses (et les font souvent toutes simultanément): elles symétrisent les distributions des résidus, créent une homoscédasticité et linéarisent les relations.
whuber

Réponses:

5

La transformation de X n'a ​​pas d'impact sur la forme de la distribution conditionnelle, ni sur l'hétéroscédasticité, donc la transformation de X ne sert vraiment qu'à traiter des relations non linéaires. (Si vous ajustez des modèles additifs, cela pourrait aider à éliminer l'interaction, mais il est souvent préférable de transformer Y)

Un exemple où transformer uniquement X est logique:
entrez la description de l'image ici

Si c'est - le manque d'ajustement dans la moyenne conditionnelle - est votre principal problème, alors la transformation de X peut avoir un sens, mais si vous vous transformez en raison de la forme du Y conditionnel ou en raison de l'hétéroscédasticité, si vous résolvez cela par transformation ( pas nécessairement le meilleur choix, mais nous prenons la transformation comme une donnée pour cette question), alors vous devez transformer Y d'une manière ou d'une autre pour le changer.

Considérons, par exemple, un modèle où la variance conditionnelle est proportionnelle à la moyenne:

Un exemple où la transformation de X uniquement ne peut pas résoudre les problèmes:
entrez la description de l'image ici

Le déplacement des valeurs sur l'axe des x ne changera pas le fait que l'écart est plus grand pour les valeurs de droite que pour les valeurs de gauche. Si vous voulez corriger cette variance changeante par transformation, vous devez réduire les valeurs Y élevées et étirer les valeurs Y basses.

Maintenant, si vous envisagez de transformer Y, cela changera la forme de la relation entre la réponse et les prédicteurs ... vous vous attendez donc souvent à transformer X également si vous voulez un modèle linéaire (s'il était linéaire avant la transformation, ce ne sera pas après). Parfois (comme dans le deuxième graphique ci-dessus), une transformation Y = rendra la relation plus linéaire en même temps - mais ce n'est pas toujours le cas.

Si vous transformez à la fois X et Y, vous voulez d'abord faire Y, en raison de ce changement dans la forme de la relation entre Y et X - vous devez généralement voir à quoi ressemblent les relations après la transformation. La transformation ultérieure de X visera alors à obtenir la linéarité de la relation.

Donc, en général, si vous vous transformez du tout, vous devez souvent transformer Y, et si vous le faites, vous voulez presque toujours le faire en premier.

Glen_b -Reinstate Monica
la source
Si nous avons Y=β0+β1X5+ϵ les résidus auront une variance croissante régressant contre X1(non transformé). Bien sûr, transformerXa un impact sur l'hétéroscédasticité résiduelle.
Robert Kubrick,
1
@RobertKubrick n'est pas relatif à leur moyenne locale. Voir mon article édité.
Glen_b -Reinstate Monica
Je ne le vois toujours pas. Je crois que les changements de variance sont en fait à cause deϵ, ne pas Ydistribution conditionnelle. Btw, l'intrigue que vous avez publiée est pour le non transforméX. Je sais que vous l'avez fait pour montrer la non-linéarité de la relation, mais c'est un peu déroutant dans le contexte de votre réponse.
Robert Kubrick
Var(ϵ)=Var(Y|X). Vous semblez faire la distinction entre les deux écarts, mais ils ne sont pas distincts.
Glen_b -Reinstate Monica
1
Il modifie uniquement la moyenne conditionnelle. C'est ce que je dis dans ma réponse.
Glen_b -Reinstate Monica
2

Transformer Y au départ est une approche anachronique de l'analyse des données. Nos arrière-arrière-arrière-grands-pères l'ont fait, alors pourquoi pas nous? Beaucoup de raisons et votre message reflétant que les hypothèses gaussiennes sont uniquement basées sur les erreurs d'un modèle PAS la série Y est morte.

IrishStat
la source
4
Je suis plus d'accord avec la première phrase que je ne suis pas d'accord; néanmoins, la réponse est plus que simplifiée. Des exemples comme le pH ou les décibels montrent que la mesure scientifique est souvent déjà à l'échelle transformée, et pour de bonnes raisons. De nombreux économistes utilisent régulièrement le revenu logarithmique et non le revenu comme variable de réponse et cela correspond à la façon dont les gens ordinaires prennent de nombreuses décisions (par exemple en termes de pourcentage de réflexion). (L'histoire ici est, je pense, défendable aussi; les transformations n'étaient pas particulièrement courantes avant le milieu du 20e siècle.)
Nick Cox
@ Nick, je parlais ironiquement de mes ancêtres. Les transformations ont commencé à apparaître au milieu des années cinquante .....
IrishStat
3
J'exprime volontiers la langue dans la joue et l'exagération colorée, mais néanmoins des déclarations précises devraient être correctes. La littérature sur la lognormale a commencé au 19e siècle, tout comme le papier graphique logarithmique. Les transformations ont fait l'objet de plusieurs revues avant les années 1950, par exemple l'article de Bartlett dans Biometrics 1947, de sorte que la littérature est plus ancienne. Cela correspond, je pense, à mon affirmation précédente selon laquelle ils n'étaient "pas particulièrement courants".
Nick Cox
3
@Nick Les scientifiques utilisaient des transformations bien avant 1947, car elles sont si naturelles. Un bon exemple est la dérivation de Rydberg de sa formule pour le spectre de l'hydrogène , obtenue dans les années 1880 en choisissant des transformations non linéaires appropriées des variables. On pourrait faire appel aux travaux de Fechner en psychophysique c. 1860 aussi. Cette pratique est tellement efficace et importante dans les sciences que l'on ne peut pas prendre au sérieux la première affirmation de cette réponse qu'elle est "anachronique".
whuber
3
@whuber Nous sommes d'accord, en substance. Il existe un spectre (jeu de mots voulu) des utilisations des transformations dans les sciences physiques et autres, résultant souvent comme moyen ou comme conséquence de la découverte de relations non linéaires, à l'utilisation délibérée des transformations de données brutes comme recommandé par (certains) statisticiens. Je ne voudrais pas tracer de ligne entre les deux, car cela serait inutile et inutile.
Nick Cox