Pourquoi le R-carré ajusté est-il inférieur au R-carré si le R-carré ajusté prédit mieux le modèle?

15

Pour autant que je sache, explique dans quelle mesure le modèle prédit l'observation. Le R 2 ajusté est celui qui prend en compte davantage d'observations (ou degrés de liberté). Donc, R 2 ajusté prédit mieux le modèle? Alors pourquoi est-ce moins que R 2 ? Il semble que cela devrait souvent être plus.R2R2R2R2

user59756
la source

Réponses:

30

montre la relation linéaire entre les variables indépendantes et la variable dépendante. Il est défini comme 1 - S S ER2 qui est la somme des erreurs quadratiques divisée par la somme totale des carrés. SSTO=SSE+SSRqui sont l'erreur totale et la somme totale des carrés de régression. Au fur et à mesure que des variables indépendantes sont ajoutées,SSRcontinuera d'augmenter (et puisqueSSTOest fixe)SSEdiminuera etR2augmentera continuellement quelle que soit la valeur des variables que vous avez ajoutées.1SSESSTOSSTO=SSE+SSRSSRSSTOSSER2

Le ajusté tente de tenir compte du retrait statistique. Les modèles avec des tonnes de prédicteurs ont tendance à mieux fonctionner dans l'échantillon que lorsqu'ils sont testés hors échantillon. Le R 2 ajusté vous «pénalise» pour l'ajout de variables prédictives supplémentaires qui n'améliorent pas le modèle existant. Cela peut être utile dans la sélection du modèle. R 2 ajusté sera égal à R 2 pour une variable prédictive. Lorsque vous ajoutez des variables, il sera plus petit que R 2 .R2R2R2R2R2

Eric Peterson
la source
Il n'est pas clair, comment le carré R ajusté atteint les propriétés pointues. Autrement dit, quelle est la formule et comment elle provoque les propriétés?
Alexey Voytenko
Adj R ^ 2 = 1 - ((n -1) / (n - k -1)) (1 - R ^ 2)
alpiniste
Où k = # de variables indépendantes, n = # observations
mountainclimber
tenter de tenir compte du retrait statistique - peut-être pour sur-ajustement?
Richard Hardy
-1

R ^ 2 explique la proportion de la variation de votre variable dépendante (Y) expliquée par vos variables indépendantes (X) pour un modèle de régression linéaire.

Bien que R ^ 2 ajusté indique la proportion de la variation de votre variable dépendante (Y) expliquée par plus d' une variable indépendante (X) pour un modèle de régression linéaire.

astha gupta
la source
1
La distinction que vous faites entre "variables indépendantes" et "plus d'une variable indépendante" n'est pas claire. En outre, citant Andy ci-dessous, "Vous n'ajoutez pas vraiment de nouvelles informations à ce qui a été fourni auparavant."
Amoeba dit Reinstate Monica
-2

R-Squared augmente même lorsque vous ajoutez des variables qui ne sont pas liées à la variable dépendante, mais le R-Squared ajusté prend soin de cela car il diminue chaque fois que vous ajoutez des variables qui ne sont pas liées à la variable dépendante, donc après avoir pris soin, il est probable diminuer.

CHRISTOPHER MBOTWA
la source
3
Étant donné que cette question a déjà une réponse acceptée, cela devrait plutôt être un commentaire. Vous n'ajoutez pas vraiment de nouvelles informations à ce qui a été fourni auparavant.
Andy