Pourquoi supprimerait-on l'ordonnée à l'origine en régression linéaire?

20

Dans un certain nombre de progiciels statistiques, y compris SAS, SPSS et peut-être plus, il existe une option pour "supprimer l'interception". Pourquoi voudriez-vous faire ça?

user333
la source

Réponses:

16

Si pour une raison quelconque , vous connaissez l'interception (surtout si elle est égale à zéro), vous pouvez éviter de perdre la variance dans vos données pour estimer quelque chose que vous savez déjà, et ont une plus grande confiance dans les valeurs que vous ne devez estimer.

Un exemple quelque peu simplifié est que si vous savez déjà (d'après les connaissances du domaine) qu'une variable est (en moyenne) un multiple d'une autre, et que vous essayez de trouver ce multiple.

Nick Sabbe
la source
Je ne le comprends pas totalement, mais dans un modèle que je crée dans R, j'ai quelque chose comme lm (a ~ b / c - 1) qui crée des interactions entre b et c, et en supprimant l'interception ("- 1" dans R), j'obtiens des réponses plus facilement interprétables qui sont essentiellement les mêmes que si je ne supprime pas l'interception. D'une certaine manière, l'interaction rend cela possible.
Wayne
Des réponses plus facilement interprétables qui sont essentiellement les mêmes? Cela semble être une contradiction. Peut-être devriez-vous introduire cela comme une nouvelle question?
Nick Sabbe
Si je regarde les coefficients, avec l'ordonnée à l'origine il y a un (intercepter) et un réchauffeur de température (une de mes variables est la température qui peut être plus chaude ou plus froide ). Pour interpréter les coefficients, je dois savoir que (interception) correspond directement à tempcooler et tempwarmer + (interception) est le tempwarmer directement interprétable . Si je supprime l'interception, je vois directement le refroidisseur de température et le réchauffeur de température . Peut-être une bizarrerie des formules de R et de la modélisation linéaire, mais ...
Wayne
12

Prenons le cas d'une covariable catégorielle à 3 niveaux. Si l'on a une interception, cela nécessiterait 2 variables indicatrices. En utilisant le codage habituel pour les variables indicatrices, le coefficient de l'une ou l'autre variable indicatrice est la différence moyenne par rapport au groupe de référence. En supprimant l'ordonnée à l'origine, vous auriez 3 variables représentant la covariable catégorielle, au lieu de seulement 2. Un coefficient est alors l'estimation moyenne pour ce groupe. Un exemple plus concret de ce qu'il faut faire est en science politique où l'on peut étudier les 50 États des États-Unis. Au lieu d'avoir une interception et 49 variables indicatrices pour les états, il est souvent préférable de supprimer l'interception et d'avoir au lieu de cela 50 variables.

jkd
la source
Il est beaucoup plus facile d'interpréter le coefficient de cette façon
probabilités
1
Oui, mais il se décompose en deux ou plusieurs variables catégorielles!
kjetil b halvorsen
2

Pour illustrer le point de @Nick Sabbe avec un exemple spécifique.

J'ai vu une fois un chercheur présenter un modèle de l'âge d'un arbre en fonction de sa largeur. On peut supposer que lorsque l'arbre est à zéro, il a effectivement une largeur de zéro. Ainsi, une interception n'est pas requise.

Jeromy Anglim
la source
8
La sagesse ou son absence dépend de la plage de la variable dépendante d'intérêt. Considérez les données de freinage de voiture là où vous avez des vitesses et des distances d'arrêt. Vous pouvez adapter un modèle quadratique avec ou sans interception. Les vitesses d'intérêt commencent généralement autour de 50 km / h et atteignent, disons, 130 km / h. Dans ce cas, l' ajustement d'un quadratique avec interception est plus logique, car le fait de forcer l'interception à zéro peut entraîner (pratiquement) des problèmes de non-ajustement importants. Le fait que la "distance de freinage" d'une voiture à l'arrêt soit nulle n'est pas particulièrement pertinent pour le problème de modélisation en question.
cardinal
@cardinal oui, je me demandais si je devais faire une remarque similaire. J'ai trouvé dans certains contextes de modélisation de régression non linéaire qu'il y a un plus grand intérêt à avoir un modèle qui fournit un modèle théoriquement plausible qui prédit avec précision en dehors de la plage des données (par exemple, dans l'apprentissage de la vitesse des données de courbe, les modèles ne devraient pas prédire des vitesses inférieures à 0 seconde ). Dans de tels cas, contraindre une interception à zéro peut être plus approprié même si cela entraîne une baisse de la prédiction pour les données.
Jeromy Anglim
@cardinal Je suis d'accord que les modèles polynomiaux prédisent rarement de manière plausible en dehors de la plage des données, et donc contraindre l'interception à 0 dans de tels modèles est rarement une bonne idée.
Jeromy Anglim
Merci pour vos commentaires. Ma remarque ne visait pas tant les modèles polynomiaux. Le choix d'un quadratique était simplement basé sur une motivation physique réelle (ie, la mécanique classique). Le point que j'essayais d'articuler était qu'il fallait examiner attentivement le problème de modélisation qui nous intéresse; parfois faire quelque chose qui est (ou semble) "théoriquement injustifié" est en fait plus approprié statistiquement.
cardinal