Pièges à éviter lors de la transformation des données?

15

J'ai réalisé une forte relation linéaire entre ma variable et après avoir doublement transformé la réponse. Le modèle était mais je l'ai transformé en améliorant de 0,19 à 0,76. $X$ $Y$ $Y\sim X$ $\sqrt{\frac{Y}{X}}\sim \sqrt{X}$ $R^2$

De toute évidence, j'ai fait une chirurgie décente sur cette relation. Quelqu'un peut-il discuter des écueils de cette démarche, tels que les dangers de transformations excessives ou les violations possibles des principes statistiques?

regression data-transformation r-squared Info5ek
la source

1

D'après ce que vous avez, de l'algèbre seule, cela ressemble à

Y \propto X^{2}

$Y \propto X^2$ . Pouvez-vous publier les données ou afficher un graphique? Y a-t-il des raisons scientifiques de s'attendre à

Y = 0

$Y = 0$ lorsque

X = 0

$X = 0$ ?

Nick Cox

1

@NickCox: Je pense que

Y \sim X

$Y\sim X$ est une notation non conventionnelle pour

E Y = β_{0} + β_{1} X

$\mathrm{E} Y=\beta_0 + \beta_1 X$ ; peut-être que l'OP parle R plutôt que mathématiques (quelque chose à décourager bien sûr).

Scortchi - Réintégrer Monica

@Scortchi Je crains que vous n'ayez raison. Voir les données aiderait dans les deux cas.

Nick Cox

Dans ce cas, un 0 X impliquerait un 0 Y car Y entraîne des décès et X est le nombre total de kilomètres parcourus par tous les conducteurs.

Info5ek

2

@AaronHall L'équation n'est pas nécessairement inutile, car (en multipliant par

\sqrt{X}

$\sqrt X$ c'est

\sqrt{Y} = β_{0} \sqrt{X} + β_{1} X + \sqrt{X} ϵ

$\sqrt Y = \beta_0 \sqrt X + \beta_1 X + \sqrt X\epsilon$ , qui peut être un modèle potentiellement plausible dans certaines situations). Cependant le

R^{2}

$R^2$ sur la forme de l'équation donnée dans la question n'est pas très utile, vous ne pouvez pas le comparer avec quelque chose ajusté sur une échelle différente. (

Soit dit en passant

20

Vous ne pouvez pas vraiment comparer avant et après, car la variabilité sous-jacente de est différente. Donc, vous ne pouvez littéralement pas être rassuré par le changement de . Cela ne vous dit rien de valable pour comparer les deux modèles. $R^2$ $Y$ $R^2$

Les deux modèles sont différents à plusieurs égards, ils signifient donc des choses différentes - ils supposent des choses très différentes sur la forme de la relation et la variabilité du terme d'erreur (lorsqu'ils sont considérés en termes de relation entre et ). Donc, si vous êtes intéressé par la modélisation de (si lui-même est significatif), produisez un bon modèle pour cela. Si vous êtes intéressé par la modélisation $Y$ $X$ $Y$ $Y$ (/ $\sqrt Y$ est significatif), produisez un bon modèle pour cela. Si $\sqrt Y$ porteur de sens, puis faites un bon modèle pour cela. Mais comparez tous les modèles concurrents à des échelles comparables. sur des réponses différentes n'est tout simplement pas comparable. $\sqrt{Y/X}$ $R^2$

Si vous essayez simplement des relations différentes dans l'espoir de trouver une transformation avec un élevé - ou toute autre mesure de `` bon ajustement '' - les propriétés de toute inférence que vous aimeriez effectuer seront affectées par l'existence de ce processus de recherche. $R^2$

Les estimations auront tendance à être biaisées loin de zéro, les erreurs-types seront trop petites, les valeurs p seront trop petites, les intervalles de confiance trop étroits. Vos modèles sembleront en moyenne «trop bons» (dans le sens où leur comportement hors échantillon sera décevant par rapport au comportement dans l'échantillon).

Pour éviter ce type de surajustement, vous devez, si possible, effectuer l'identification et l'estimation du modèle sur différents sous-ensembles de données (et l'évaluation du modèle sur un troisième). Si vous répétez ce type de procédure sur de nombreuses «divisions» des données prises au hasard, vous obtenez une meilleure idée de la reproductibilité de vos résultats.

Il existe de nombreux messages ici avec des points pertinents sur ces questions: il pourrait être utile d'essayer certaines recherches.

(Si vous avez a priori de bonnes raisons de choisir une transformation particulière, c'est un problème différent. Mais la recherche dans l'espace des transformations pour trouver quelque chose qui convient entraîne toutes sortes de problèmes de type `` espionnage des données ''.)

Glen_b -Reinstate Monica
la source

Merci pour la réponse Glen. La raison pour laquelle j'ai fait cette transformation est parce que c'est la seule qui ne m'a pas donné de résidus biaisés. J'ai essayé les standards y / x, log (y), sqrt (y) et diverses combinaisons de ceux-ci. Tous ont abouti à une parcelle résiduelle en pente. Ce n'est qu'après avoir effectué une transformation en deux étapes que j'ai obtenu des résidus apparaissant au hasard. Cependant, vous déclarez que ce modèle est potentiellement non informatif pour les données hors échantillon car je viens peut-être de sur-ajuster les données, n'est-ce pas?

Info5ek

Eh bien, oui, mais c'est un problème avec toute forme de spécification de modèle lorsque l'on regarde les données, donc cela arrive souvent. Dans de nombreuses situations, il est difficile à éviter, c'est là que le fractionnement de l'échantillon peut intervenir. (La validation croisée peut être un outil pratique pour de telles situations.)

Glen_b -Reinstate Monica

Il serait utile de connaître les raisons du downvote. Quel est le problème avec la réponse? Peut-être que cela peut être amélioré. (Si cela ne peut pas être amélioré, pourquoi le downvote?)

Glen_b -Reinstate Monica

1

@Glen_b: difficile de contre-valider une procédure mal définie - dans chaque pli, vous devrez répéter le processus de recherche des diagnostics, imaginer une autre transformation lorsque vous ne les aimez pas, essayer cela, etc.

Scortchi - Réintégrer Monica

1

@Scortchi Oui, si les transformations ne sont pas sélectionnées à partir d'un pool connu de candidats par une règle simple, cela peut être impossible.

Glen_b -Reinstate Monica

16

Il y a un problème plus important que ceux identifiés par @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

Et j'obtiens un de 0,49 et une valeur de P qui est de . $R^2$ $5.5 \times 10^{-16}$

Vous avez deux côtés de l'équation. $X$

Peter Flom - Réintégrer Monica
la source

2

Je ne suis pas sûr que ce soit un problème différent de ne pas avoir de bonnes raisons a priori d'exprimer le modèle d'une manière plutôt que d'une autre. Si vous laissez

&

W = \sqrt{\frac{Y}{X}}

$W=\sqrt{\frac{Y}{X}}$

alors vous pouvez tout aussi bien dire que le premier modèle (

) a

deux côtés de l'équation.

Z = \sqrt{X}

$Z=\sqrt{X}$

Y \sim X

$Y\sim X$

Z^{2}

$Z^2$

Scortchi - Réintégrer Monica

4

Si

&

sont des bruits aléatoires, régresser

sur

donne une relation forte. D'où l'asymétrie qui qualifie une régression de fausse plutôt que l'autre sans tenir compte de la signification même des variables? Ce genre de chose a été débattu entre Pearson et Yule ( Aldrich (1995) ) et je suis avec Yule: ce qui est faux n'est pas la corrélation mais la revendication d'une relation causale basée sur cette corrélation.

W

$W$

Z

$Z$

Y

$Y$

X

$X$

Scortchi - Réintégrer Monica

1

Oui, mais ici, la régression a commencé avec X et Y. Peu importe quelles variables sont, pour ainsi dire, les variables?

Peter Flom - Réintègre Monica

2

Je ne vois pas pourquoi cela devrait exister, sauf dans la mesure où, comme le souligne @Glen_b dans sa première phrase, si votre objectif était de prédire

, alors un coefficient de détermination élevé d'un modèle pour

n'est pas une corvée. Et bien sûr, si vous avez des idées solides sur ce à quoi ressemble le terme d'erreur, un modèle est plus maniable que l'autre.

Y

$Y$

W

$W$

Scortchi - Réintégrer Monica

4

Vous soulevez un bon point à propos de W&Z, @Scortchi, mais il me semble que ce que vous considérez comme les variables qui vous intéressent est important, et quelles variables vous avez créées juste pour obtenir un meilleur modèle. Quelles sont les variables réelles est déterminée par la signification de X, etc., dans le contexte de la question de fond. Je déduis du texte que l'OP veut comprendre la relation b / t X & Y, et a créé W & Z pour améliorer l'ajustement du modèle. C'est à dire, dans ce cas concret, il me semble que Peter a raison, vous ne pouvez pas essayer d'améliorer votre modèle en mettant X des deux côtés.

gung - Réintègre Monica

4

L'exemple de @ Peter comporte deux éléments, qu'il pourrait être utile de démêler:

(1) Spécification erronée du modèle. Les modèles

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} (1)

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \qquad\text{(1)}$

&

w_{i} = γ_{0} + γ_{1} z_{i} + ζ_{i} (2)

$w_i=\gamma_0 + \gamma_1 z_i + \zeta_i \qquad\text{(2)}$

, où & $w_i=\sqrt{\frac{y_i}{x_i}}$ , ne peut pas être vrai tous les deux. Si vous ré-exprimez chacun en termes de réponse de l'autre, ils deviennent non linéaires dans les paramètres, avec des erreurs hétéroskédastiques. $z_i=\sqrt{x_i}$

w_{i} = \sqrt{\frac{β_{0}}{z_{i}^{2}} + β_{1} + \frac{ε_{i}}{z_{i}^{2}}} (1)

$w_i = \sqrt{\frac{\beta_0}{z_i^2} + \beta_1 + \frac{\varepsilon_i}{z_i^2}} \qquad\text{(1)}$

y_{i} = (γ_{0} {\sqrt{x}}_{i} + γ_{1} {\sqrt{x}}_{i} + ζ_{i} {\sqrt{x}}_{i})^{2} (2)

$y_i = (\gamma_0 \sqrt x_i + \gamma_1 \sqrt x_i + \zeta_i \sqrt x_i)^2 \qquad\text{(2)}$

Si est supposé être une variable aléatoire gaussienne indépendante de , alors c'est un cas spécial du modèle 1 dans lequel , et vous ne devriez pas utiliser le modèle 2. Mais également si est supposé être un aléatoire gaussien variable indépendante de , vous ne devez pas utiliser le modèle 1. Toute préférence pour un modèle plutôt que pour l'autre doit provenir de la théorie de fond ou de leur ajustement aux données. $Y$ $X$ $\beta_1=0$ $W$ $Z$

(2) Transformation de la réponse. Si vous saviez que & étaient des variables aléatoires gaussiennes indépendantes, pourquoi la relation entre & vous surprendrait-elle toujours, ou diriez-vous que c'est faux? L'espérance conditionnelle de peut être approximée avec la méthode delta: $Y$ $X$ $W$ $Z$ $W$

E \sqrt{\frac{Y}{x}} = \frac{E \sqrt{Y}}{z} \approx \frac{\sqrt{β_{0}} + \frac{Var Y}{8 β_{0}^{3 / 2}}}{z}

$\operatorname{E} \sqrt\frac{Y}{x} = \frac{\operatorname{E}\sqrt{Y}}{z} \\ \approx \frac{\sqrt{\beta_0} + \frac{\operatorname{Var}{Y}}{8\beta_0^{3/2}}}{z}$

C'est en effet une fonction de . $z$

En suivant l'exemple ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

$y$ $x$ $w$ $z$ $w$ $z$ $z$ $w$

Aldrich (2005), «Correlations Genuine and Spurious in Pearson and Yule», Statistical Science , 10 , 4 fournit une perspective historique intéressante sur ces questions.

Scortchi - Réintégrer Monica
la source

3

$R^2$

Frank Harrell
la source

Pièges à éviter lors de la transformation des données?

Réponses: