Imaginez que nous ayons un modèle de régression linéaire avec la variable dépendante . On retrouve son R 2 y . Maintenant, nous faisons une autre régression, mais cette fois sur log ( y ) , et trouvons également son log R 2 ( y ) . On m'a dit que je ne peux pas comparer les deux R 2 pour voir quel modèle est le mieux adapté. Pourquoi donc? La raison qui m'a été donnée était que nous comparerions la variabilité de différentes quantités (différentes variables dépendantes). Je ne suis pas sûr que cela devrait être une raison suffisante pour cela.
Existe-t-il également un moyen de formaliser cela?
Toute aide serait appréciée.
regression
data-transformation
r-squared
Un vieil homme dans la mer.
la source
la source
Réponses:
C'est une bonne question, car "des quantités différentes" ne semblent pas être une grande explication.
Il y a deux raisons importantes de se méfier de l'utilisation de pour comparer ces modèles: il est trop grossier (il n'évalue pas vraiment la qualité de l'ajustement ) et il sera inapproprié pour au moins l'un des modèles. Cette réponse porte sur ce deuxième problème.R2
Traitement théorique
compare la variance des résidus du modèle à la variance des réponses. La variance est un écart additif carré moyen par rapport à un ajustement. En tant que tel, nous pouvons comprendre que R 2 compare deux modèles de la réponse y .R2 R2 y
Le modèle "de base" est
Lorsque vous prenez des logarithmes et utilisez les moindres carrés pour ajuster le modèle , vous comparez implicitement une relation de la forme
à l'un des formulaires
Une analyse
Un tel modèle (qui se produit généralement) est un ajustement des moindres carrés à une relation exponentielle,
la source