Que calcule réellement la formule y ~ x + 0 dans R?

11

Quelle est la différence statistique entre une régression linéaire dans R avec l' formulaensemble à la y ~ x + 0place de y ~ x? Comment interpréter ces deux résultats différents?

JimBoy
la source

Réponses:

18

L'ajout +0(ou -1) à une formule de modèle (par exemple, dans lm()) dans R supprime l'interception. Ceci est généralement considéré comme une mauvaise chose à faire; voir:

La pente estimée est calculée différemment selon que l'ordonnée à l'origine est également estimée, à savoir:

(with intercept)β^1=xiyi(xi)(yi)Nxi2(xi)2N(without intercept)β^1=xiyixi2

Puisque la quantité à soustraire (le "subtrahend") à la fois au numérateur et au dénominateur n'est pas nécessairement , l'estimation de la pente est biaisée lorsque l'interception est supprimée. 0

La valeur de est également calculée différemment; voir: R2

Voici les formules sous-jacentes:

(with intercept)R2=1(yiy^i)2(yiy¯)2(without intercept)R2=1(yiy^i)2yi2
gung - Réintégrer Monica
la source
Merci, gung! Si je supprime l'interception, mes multiples R au carré s'améliorent soudainement. Pouvez-vous m'aider ici?
JimBoy
6
Il n'existe aucun moyen convenu de calculer r au carré sans interception. Le r au carré n'a pas son interprétation habituelle. Faire une régression sans interception est presque toujours une TRÈS mauvaise idée
Repmat
5

Cela dépend du contexte (bien sûr), dans la lm(...)commande dans R, il supprimera l'interception. Autrement dit, vous effectuez une régression à l'origine.

Notez que la plupart des manuels sur le sujet de la régression vous diront que forcer l'interception (à n'importe quelle valeur) est une mauvaise idée.

L'interprétation de x ne change pas, mais la valeur (en comparant avec et sans interception) changera, parfois de manière très significative.

Repmat
la source
Merci, Repmat! J'obtiens des estimations très différentes si je supprime l'interception par rapport à quand je ne le fais pas. De plus, tous les tests t deviennent hautement significatifs. Savez-vous pourquoi c'est?
JimBoy
2
L'ordonnée à l'origine absorbera toutes les variables non nulles non contenues dans le modèle. Avec l'interception disparue, la variance doit aller quelque part. C'est pourquoi la plupart des livres, en règle générale, déclarent que la régression sans interception est toujours erronée. Autrement dit, l'OLS est toujours biaisé et cohérent dans ce cas (à quelques exceptions près).
Repmat