J'ai réalisé une forte relation linéaire entre ma variable et après avoir doublement transformé la réponse. Le modèle était mais je l'ai transformé en améliorant de 0,19 à 0,76.
De toute évidence, j'ai fait une chirurgie décente sur cette relation. Quelqu'un peut-il discuter des écueils de cette démarche, tels que les dangers de transformations excessives ou les violations possibles des principes statistiques?
Réponses:
Vous ne pouvez pas vraiment comparer avant et après, car la variabilité sous-jacente de Y est différente. Donc, vous ne pouvez littéralement pas être rassuré par le changement de R 2 . Cela ne vous dit rien de valable pour comparer les deux modèles.R2 Y R2
Les deux modèles sont différents à plusieurs égards, ils signifient donc des choses différentes - ils supposent des choses très différentes sur la forme de la relation et la variabilité du terme d'erreur (lorsqu'ils sont considérés en termes de relation entre et X ). Donc, si vous êtes intéressé par la modélisation de Y (si Y lui-même est significatif), produisez un bon modèle pour cela. Si vous êtes intéressé par la modélisation √Y X Y Y (/ √Oui--√ est significatif), produisez un bon modèle pour cela. Si √Oui--√ porteur de sens, puis faites un bon modèle pour cela. Mais comparez tous les modèles concurrents à des échelles comparables. R2sur des réponses différentes n'est tout simplement pas comparable.Oui/ X----√ R2
Si vous essayez simplement des relations différentes dans l'espoir de trouver une transformation avec un élevé - ou toute autre mesure de `` bon ajustement '' - les propriétés de toute inférence que vous aimeriez effectuer seront affectées par l'existence de ce processus de recherche.R2
Les estimations auront tendance à être biaisées loin de zéro, les erreurs-types seront trop petites, les valeurs p seront trop petites, les intervalles de confiance trop étroits. Vos modèles sembleront en moyenne «trop bons» (dans le sens où leur comportement hors échantillon sera décevant par rapport au comportement dans l'échantillon).
Pour éviter ce type de surajustement, vous devez, si possible, effectuer l'identification et l'estimation du modèle sur différents sous-ensembles de données (et l'évaluation du modèle sur un troisième). Si vous répétez ce type de procédure sur de nombreuses «divisions» des données prises au hasard, vous obtenez une meilleure idée de la reproductibilité de vos résultats.
Il existe de nombreux messages ici avec des points pertinents sur ces questions: il pourrait être utile d'essayer certaines recherches.
(Si vous avez a priori de bonnes raisons de choisir une transformation particulière, c'est un problème différent. Mais la recherche dans l'espace des transformations pour trouver quelque chose qui convient entraîne toutes sortes de problèmes de type `` espionnage des données ''.)
la source
Il y a un problème plus important que ceux identifiés par @Glen_b.
Et j'obtiens un de 0,49 et une valeur de P qui est de 5,5 × 10 - 16 .R2 5.5×10−16
Vous avez deux côtés de l'équation.X
la source
L'exemple de @ Peter comporte deux éléments, qu'il pourrait être utile de démêler:
(1) Spécification erronée du modèle. Les modèles
&
, où &zi=√wi=yixi−−√ , ne peut pas être vrai tous les deux. Si vous ré-exprimez chacun en termes de réponse de l'autre, ils deviennent non linéaires dans les paramètres, avec des erreurs hétéroskédastiques.zi=xi−−√
Si est supposé être une variable aléatoire gaussienne indépendante de X , alors c'est un cas spécial du modèle 1 dans lequel β 1 = 0 , et vous ne devriez pas utiliser le modèle 2. Mais également si W est supposé être un aléatoire gaussien variable indépendante de Z , vous ne devez pas utiliser le modèle 1. Toute préférence pour un modèle plutôt que pour l'autre doit provenir de la théorie de fond ou de leur ajustement aux données.Y X β1=0 W Z
(2) Transformation de la réponse. Si vous saviez que & X étaient des variables aléatoires gaussiennes indépendantes, pourquoi la relation entre W & Z vous surprendrait-elle toujours, ou diriez-vous que c'est faux? L'espérance conditionnelle de W peut être approximée avec la méthode delta:Y X W Z W
C'est en effet une fonction de .z
En suivant l'exemple ...
Aldrich (2005), «Correlations Genuine and Spurious in Pearson and Yule», Statistical Science , 10 , 4 fournit une perspective historique intéressante sur ces questions.
la source
la source