Pourquoi signaler R au carré?

8

Si le R ajusté au carré est supérieur au R au carré, pourquoi le logiciel statistique continue-t-il de signaler ce dernier? Existe-t-il une sorte de situation où un chercheur peut préférer utiliser R au carré au lieu de R ajusté au carré?

Mike Senin
la source
À quel type de régression faites-vous face? Si je ne me trompe pas, pour la régression linéaire, il n'y a pas de différence entre le R au carré et le R au carré ajusté. Dans ce cas, il est donc très approprié d'utiliser la valeur R au carré simple.
alesc
Un linéaire. Mais les progiciels statistiques fournissent les deux mesures. Voilà pourquoi je me demande pourquoi.
Mike Senin
Eh bien, selon Wiki , l'équation est un peu différente même pour la régression linéaire ( p=1). Mais tout l'intérêt du R au carré ajusté est « L'utilisation d'un R2 ajusté est une tentative de prendre en compte le phénomène du R2 automatiquement et augmentant faussement lorsque des variables explicatives supplémentaires sont ajoutées au modèle ». La régression linéaire n'a pas de variable explicative supplémentaire, car il s'agit du type de régression le plus primitif.
alesc
@alesc, je le sais. Ce que je ne sais pas, c'est pourquoi signaler les deux valeurs.
Mike Senin
Qu'essayez-vous de prouver avec votre valeur R au carré? Comparez-vous différents modèles de régression? Si vous comparez des modèles de régression linéaire et non linéaire, il serait alors judicieux d'utiliser le carré R ajusté, sinon le carré R simple sera suffisant. Mais là encore, vous pouvez également utiliser le R ajusté au carré, même pour la régression linéaire :) Personnellement, je ne rapporterais pas les deux valeurs. Choisissez donc une métrique et ne rapportez que cette valeur (carré R ou carré R ajusté).
alesc

Réponses:

5

Dans des conditions par exemple expliquées ici ,R2mesure la proportion de la variance dans la variable dépendante expliquée par la régression, qui est une mesure naturelle. AjustéR2 n'a pas cette interprétation, car elle modifie la R2 valeur.

Donc, tout en étant ajusté R2 a l'avantage incontestable de ne pas augmenter automatiquement lorsque le nombre de régresseurs augmente, vous payez un prix en termes d'interprétation de la mesure.

Remarque Je ne préconise pas l'utilisation de l'un ou de l'autre, je donne simplement une raison possible pour laquelle les gens utilisent toujours la norme R2.

Christoph Hanck
la source
Question rapide: est-il peut-être vrai que Runej.2 est un estimateur cohérent de la population R2sous certaines conditions, par exemple un modèle bien spécifié? Il serait alors logique de signalerRunej.2 au lieu de R2.
Richard Hardy
3
Oui, mais comme nous pouvons l'écrire Runej.2=1-n-1n-K+n-1n-KR2 et, évidemment, n-1n-K1 (au moins lorsque, comme on le suppose généralement, K reste fixe comme n), nous avons cela Runej.2-R2=op(1), ce qui ne semble pas être une raison pour préférer l'un à l'autre.
Christoph Hanck
Kest bien sûr le nombre de régresseurs
Christoph Hanck
1
Eh bien ... définissons-nous la population R2 comme 1-σ2/Vuner(y)? Si oui, par écritRunej.2=1-s2je(y-y¯)2/(n-1) (s2 l'estimation de la variance ajustée par df divisant par n-K) montre que l'estimateur de la variance d'erreur au numérateur et celui de la variance de y dans le dénominateur sont sans biais pour les paramètres de population respectifs, E(s2)=σ2 et E[je(y-y¯)2/(n-1)]=Vuner(y). Mais cela ne fait pas du ratio un estimateur non biaisé des ratios des paramètres, car l'opérateur d'espérance ne passe pas par les fonctions non linéaires en général.
Christoph Hanck
1
Merci. J'aurais peut-être dû poster mes commentaires sous forme de question distincte, alors j'aurais pu voter pour vos réponses. Comme je soupçonnais que des choses similaires avaient été posées, j'espérais juste une courte confirmation / annulation, un style de commentaire. Tu étais plus explicite que ça, j'apprécie!
Richard Hardy
1

Le R ajusté au carré est utile pour comparer différents modèles de régression. Cette tâche ne peut pas être accomplie par le R au carré qui, comme d'autres l'ont déjà dit, a un autre objectif informatif, qui est d'exprimer la proportion de variance de la variable dépendante qui est expliquée par le modèle de régression étudié.

Carlo Lazzaro
la source