Dans un modèle linéaire simple avec une seule variable explicative,
Je trouve que la suppression du terme d'interception améliore grandement l'ajustement (la valeur de va de 0,3 à 0,9). Cependant, le terme d'interception semble être statistiquement significatif.
Avec interception:
Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2435 on 218 degrees of freedom Multiple R-squared: 0.316, Adjusted R-squared: 0.3129 F-statistic: 100.7 on 1 and 218 DF, p-value: < 2.2e-16
Sans interception:
Call: lm(formula = alpha ~ 0 + delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.92474 -0.15021 0.05114 0.21078 0.85480 Coefficients: Estimate Std. Error t value Pr(>|t|) delta 0.85374 0.01632 52.33 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2842 on 219 degrees of freedom Multiple R-squared: 0.9259, Adjusted R-squared: 0.9256 F-statistic: 2738 on 1 and 219 DF, p-value: < 2.2e-16
Comment interpréteriez-vous ces résultats? Un terme d'interception doit-il être inclus dans le modèle ou non?
Modifier
Voici les sommes résiduelles de carrés:
RSS(with intercept) = 12.92305
RSS(without intercept) = 17.69277
r
linear-model
interpretation
r-squared
intercept
Ernest A
la source
la source
Réponses:
Tout d'abord, nous devons comprendre ce que fait leR2
R
logiciel lorsqu'aucune interception n'est incluse dans le modèle. Rappelons que le calcul habituel de quand une interception est présente est La première égalité n’est due qu’à l’inclusion de l’interception dans le modèle alors que c’est probablement la plus populaire des deux manières de l’écrire. La deuxième égalité fournit en fait l'interprétation plus générale! Ce point est également abordé dans cette question connexe .R 2 = Σ i ( y i - ˉ y ) 2Mais que se passe-t-il s'il n'y a pas d'interception dans le modèle?
Eh bien, dans ce cas,
R
( silencieusement! ) Utilise la forme modifiéeIl est utile de rappeler ce que essaie de mesurer. Dans le premier cas, il compare votre modèle actuel au modèle de référence qui inclut uniquement une interception (c.-à-d. Un terme constant). Dans le second cas, il n'y a pas d'interception, il est donc peu logique de le comparer à un tel modèle. Ainsi, à la place, est calculé, ce qui utilise implicitement un modèle de référence correspondant au bruit uniquement .R 2 0R2 R20
Dans ce qui suit, je me concentre sur la deuxième expression pour et car cette expression se généralise à d'autres contextes et il est généralement plus naturel de penser aux choses en termes de résidus.R 2 0R2 R20
Mais comment sont-ils différents et quand?
Faisons une brève digression dans une algèbre linéaire et voyons si nous pouvons comprendre ce qui se passe. Premièrement, appelons les valeurs ajustées du modèle avec intercept et les valeurs ajustées du modèle sans interception .y^ y~
Nous pouvons réécrire les expressions pour et sous la forme et respectivement.R2 R20
Maintenant, puisque , alors si et seulement si∥y∥22=∥y−y¯1∥22+ny¯2 R20>R2
Le côté gauche est supérieur à un puisque le modèle correspondant à est imbriqué dans celui de . Le deuxième terme à droite est la moyenne quadratique des réponses divisée par l'erreur quadratique moyenne d'un modèle avec interception uniquement. Ainsi, plus la moyenne de la réponse est grande par rapport à l’autre variation, plus nous avons de "jeu" et plus nous avons de chances de voir dominer .y~ y^ R20 R2
Notez que tout le matériel dépendant du modèle est à gauche et que le matériel non dépendant du modèle est à droite.
Ok, alors comment rend-on le ratio du côté gauche petit?
Rappelons que et où et sont des matrices de projection correspondant aux sous-espaces et tels que .y~=P0y y^=P1y P0 P1 S0 S1 S0⊂S1
Donc, pour que le rapport soit proche de un, il faut que les sous-espaces et soient très similaires. Maintenant, et ne diffèrent que par le fait que soit un vecteur de base ou non, cela signifie donc que doit être un sous-espace déjà très proche de .S0 S1 S0 S1 1 S0 1
En substance, cela signifie que notre prédicteur aurait mieux intérêt à avoir un fort décalage moyen lui-même et que ce décalage moyen devrait dominer la variation du prédicteur.
Un exemple
Ici, nous essayons de générer un exemple avec une interception explicitement dans le modèle et qui se comporte de manière similaire au cas de la question. Vous trouverez ci-dessous un
R
code simple à démontrer.Cela donne la sortie suivante. Nous commençons par le modèle avec intercept.
Ensuite, voyez ce qui se passe lorsque nous excluons l’interception.
Vous trouverez ci-dessous un graphique des données avec le modèle avec interception en rouge et le modèle sans interception en bleu.
la source
Je baserais ma décision sur des critères d’information tels que les critères d’Akaike ou de Bayes-Schwarz plutôt que sur R 2; même dans ce cas, je ne les considérerais pas comme absolus.
Si vous avez un processus où la pente est proche de zéro et que toutes les données sont loin de l'origine, votre R ^ 2 correct doit être faible, car la majeure partie de la variation dans les données sera due au bruit. Si vous essayez d'ajuster de telles données à un modèle sans interception, vous générerez un terme de pente large et incorrect et probablement un R ^ 2 plus esthétique si la version sans interception est utilisée.
Le graphique suivant montre ce qui se passe dans ces cas extrêmes. Dans ce cas, le processus de génération est le suivant: x = 100,100,1, .... et y n’est que 100 + bruit aléatoire avec une moyenne de 0 et un écart type .1. Les points sont des cercles noirs, l'ajustement sans l'interception est la ligne bleue et l'ajustement avec l'interception (la mise à zéro de la pente) est la ligne rouge:
[Désolé, cela ne me permettra pas de poster le graphique; Exécutez le code R ci-dessous pour le générer. Il montre l'origine dans le coin inférieur gauche, la grappe de points dans le coin supérieur droit. Le mauvais ajustement sans interception va du coin inférieur gauche au coin supérieur droit et l'ajustement correct est une ligne parallèle à l'axe des x.]
Le modèle correct pour cela devrait avoir un R ^ 2 de zéro - être un bruit constant plus aléatoire. R vous donnera, à vous et à R ^ 2, 99 pour l'ajustement, sans interception. Cela n'aura pas beaucoup d'importance si vous utilisez uniquement le modèle pour la prédiction avec des valeurs x comprises dans la plage des données d'apprentissage, mais échouera lamentablement si x sort de la plage étroite de l'ensemble d'apprentissage ou si vous essayez d'obtenir de véritables informations. au-delà de la simple prédiction.
L'AIC montre correctement que le modèle avec l'interception est préféré. Le code R pour cela est:
La sortie AIC est
Notez que l'AIC obtient toujours le mauvais modèle dans ce cas, car le véritable modèle est le modèle constant; mais d'autres nombres aléatoires produiront des données pour lesquelles l'AIC est la plus basse pour le modèle constant. Notez que si vous supprimez la pente, vous devez réajuster le modèle sans cette dernière, n'essayez pas d'utiliser l'interception du modèle et d'ignorer la pente.
la source