Pourquoi ne pouvons-nous pas utiliser

10

Imaginez que nous ayons un modèle de régression linéaire avec la variable dépendante . On retrouve son R 2 y . Maintenant, nous faisons une autre régression, mais cette fois sur log ( y ) , et trouvons également son log R 2 ( y ) . On m'a dit que je ne peux pas comparer les deux R 2 pour voir quel modèle est le mieux adapté. Pourquoi donc? La raison qui m'a été donnée était que nous comparerions la variabilité de différentes quantités (différentes variables dépendantes). Je ne suis pas sûr que cela devrait être une raison suffisante pour cela.yRy2log(y)Rlog(y)2R2

Existe-t-il également un moyen de formaliser cela?

Toute aide serait appréciée.

Un vieil homme dans la mer.
la source
1
Je soupçonne que cela aurait pu être discuté auparavant sur Cross Validated. Avez-vous parcouru des discussions similaires à fond? De plus, vous souciez-vous des différentes variables dépendantes (telles que le PIB par rapport au prix du pétrole) ou des transformations de la même variable (PIB par rapport à la croissance du PIB), ou des deux?
Richard Hardy
@RichardHardy J'en ai trouvé, mais je pense qu'ils étaient tangents à ma question. Comme celui-ci: stats.stackexchange.com/questions/235117/… La réponse dit simplement oui, sans vraiment expliquer pourquoi.
Un vieil homme dans la mer.
@RichardHardy Je suis intéressé par les transformations de la variable dépendante.
Un vieil homme dans la mer.
1
comparaisons de R 2 n'ont de sens qu'entre les modèles imbriqués. R2
LVRao
@LVRao Merci pour votre commentaire. Pourquoi en est-il ainsi?
Un vieil homme dans la mer.

Réponses:

8

C'est une bonne question, car "des quantités différentes" ne semblent pas être une grande explication.

Il y a deux raisons importantes de se méfier de l'utilisation de pour comparer ces modèles: il est trop grossier (il n'évalue pas vraiment la qualité de l'ajustement ) et il sera inapproprié pour au moins l'un des modèles. Cette réponse porte sur ce deuxième problème.R2


Traitement théorique

compare la variance des résidus du modèle à la variance des réponses. La variance est un écart additif carré moyen par rapport à un ajustement. En tant que tel, nous pouvons comprendre que R 2 compare deux modèles de la réponse y . R2R2y

Le modèle "de base" est

(1)yi=μ+δi

μδiτ2

xi

(2)yi=β0+xiβ+εi.

β0βεiσ2

R2τ2σ2τ2

Lorsque vous prenez des logarithmes et utilisez les moindres carrés pour ajuster le modèle , vous comparez implicitement une relation de la forme

(1a)log(yi)=ν+ζi

à l'un des formulaires

(2a)log(yi)=γ0+xiγ+ηi.

(1)(2)(2a)

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

exp(ηi)yi=exp(γ0+xiγ)

Var(yi)=exp(γ0+xiγ)2Var(eηi).

xi(2)σ2

(1a)(2a)(1)(2)R2R2

Une analyse

R2xyεiηi

Un tel modèle (qui se produit généralement) est un ajustement des moindres carrés à une relation exponentielle,

(3)yi=exp(α0+xiα)+θi.

yx(2a)θi(2)R2xy

(3)300xi1.01.6(x,y)(x,log(y))

Scatterplots

R20.700.56R2R20.70


log(y)(3)

whuber
la source
La critique de R ^ 2 n'est pas juste. Comme chaque outil utilisé doit être bien compris. Dans vos exemples ci-dessus, R ^ 2 donne le bon message. R ^ 2 choisit en quelque sorte le meilleur rapport signal / bruit. Bien sûr, ce n'est pas évident lorsque vous mettez côte à côte deux graphiques avec des échelles totalement différentes. En réalité, le signal de gauche est très fort par rapport aux écarts de bruit.
Cagdas Ozgenc
@Cagdas Vous semblez offrir un message intrinsèquement contradictoire. Étant donné que les deux graphiques sont inévitablement sur deux échelles différentes - l'un trace les réponses originales et l'autre trace leurs logarithmes - alors plaider que quelque chose n'est "pas évident" en raison de ce fait inévitable ne semble pas étayer votre cas. Se plaindre que cette réponse est "injuste" ne tient vraiment pas compte de l'analyse explicite des modèles que j'ai proposés.
whuber
Il n'y a aucune contradiction dans ce que je dis. R ^ 2 choisit le rapport signal / bruit le plus élevé. Voilà ce qu'il fait. Essayer de le transformer en autre chose et prétendre qu'il ne fonctionne pas est tout à fait faux. Toutes les critiques adressées à R ^ 2 s'appliquent également à d'autres indicateurs de qualité de l'ajustement lorsqu'ils sont appliqués à différentes variables de réponse, mais pour une raison quelconque, R ^ 2 est choisi pour être le bouc émissaire.
Cagdas Ozgenc
R2R2R2
2
Merci pour votre aide whuber. Désolé pour l'acceptation tardive, je n'ai pas eu beaucoup de temps libre ces derniers temps. ;)
Un vieil homme dans la mer.