Que calcule réellement la formule y ~ x + 0 dans R?

Quelle est la différence statistique entre une régression linéaire dans R avec l' formulaensemble à la y ~ x + 0place de y ~ x? Comment interpréter ces deux résultats différents?

multiple-regression generalized-linear-model intercept JimBoy
la source

Réponses:

L'ajout +0(ou -1) à une formule de modèle (par exemple, dans lm()) dans R supprime l'interception. Ceci est généralement considéré comme une mauvaise chose à faire; voir:

La pente estimée est calculée différemment selon que l'ordonnée à l'origine est également estimée, à savoir:

\begin{aligned} (with intercept) & {\hat{β}}_{1} & = \frac{\sum x_{i} y_{i} - \frac{(\sum x_{i}) (\sum y_{i})}{N}}{\sum x_{i}^{2} - \frac{(\sum x_{i})^{2}}{N}} \\ (without intercept) & {\hat{β}}_{1} & = \frac{\sum x_{i} y_{i}}{\sum x_{i}^{2}} \end{aligned}

$\begin{align} \hat\beta_1 &= \frac{\sum x_iy_i - \frac{\big(\sum x_i\big)\big(\sum y_i\big)}{N}}{\sum x_i^2 - \frac{\big(\sum x_i\big)^2}{N}} \tag{with intercept} \\[15pt] \hat\beta_1 &= \frac{\sum x_iy_i}{\sum x_i^2} \tag{without intercept} \end{align}$

Puisque la quantité à soustraire (le "subtrahend") à la fois au numérateur et au dénominateur n'est pas nécessairement , l'estimation de la pente est biaisée lorsque l'interception est supprimée. $0$

La valeur de est également calculée différemment; voir: $R^2$

Voici les formules sous-jacentes:

\begin{aligned} (with intercept) & R^{2} & = 1 - \frac{\sum (y_{i} - {\hat{y}}_{i})^{2}}{\sum (y_{i} - \bar{y})^{2}} \\ (without intercept) & R^{2} & = 1 - \frac{\sum (y_{i} - {\hat{y}}_{i})^{2}}{\sum y_{i}^{2}} \end{aligned}

$\begin{align} R^2 &= 1 - \frac{\sum (y_i - \hat y_i)^2}{\sum (y_i - \bar y)^2} \tag{with intercept} \\[15pt] R^2 &= 1 - \frac{\sum (y_i - \hat y_i)^2}{\sum y_i^2} \tag{without intercept} \end{align}$

gung - Réintégrer Monica
la source

Merci, gung! Si je supprime l'interception, mes multiples R au carré s'améliorent soudainement. Pouvez-vous m'aider ici?

JimBoy

Il n'existe aucun moyen convenu de calculer r au carré sans interception. Le r au carré n'a pas son interprétation habituelle. Faire une régression sans interception est presque toujours une TRÈS mauvaise idée

Repmat

@Repmat: voir aussi stats.stackexchange.com/questions/171240/…

@JimBoy: voir stats.stackexchange.com/questions/171240/…

Cela dépend du contexte (bien sûr), dans la lm(...)commande dans R, il supprimera l'interception. Autrement dit, vous effectuez une régression à l'origine.

Notez que la plupart des manuels sur le sujet de la régression vous diront que forcer l'interception (à n'importe quelle valeur) est une mauvaise idée.

L'interprétation de x ne change pas, mais la valeur (en comparant avec et sans interception) changera, parfois de manière très significative.

Repmat
la source

Merci, Repmat! J'obtiens des estimations très différentes si je supprime l'interception par rapport à quand je ne le fais pas. De plus, tous les tests t deviennent hautement significatifs. Savez-vous pourquoi c'est?

JimBoy

L'ordonnée à l'origine absorbera toutes les variables non nulles non contenues dans le modèle. Avec l'interception disparue, la variance doit aller quelque part. C'est pourquoi la plupart des livres, en règle générale, déclarent que la régression sans interception est toujours erronée. Autrement dit, l'OLS est toujours biaisé et cohérent dans ce cas (à quelques exceptions près).

Repmat