De nombreux manuels et articles ont déclaré que l'interception ne devait pas être supprimée. Récemment, j'ai utilisé un ensemble de données d'apprentissage pour construire un modèle de régression linéaire avec ou sans interception. J'ai été surpris de constater que le modèle sans interception prédit mieux que celui avec une interception en termes de rmse dans un ensemble de données de validation indépendant. La précision de la prédiction est-elle l'une des raisons pour lesquelles je devrais utiliser des modèles à interception zéro?
8
Réponses:
Regardez attentivement comment la rmse ou une autre statistique est calculée lorsque vous comparez des modèles sans interception à des modèles d'interception. Parfois, les hypothèses et les calculs sont différents entre les 2 modèles et l'un peut être plus mauvais, mais il a l'air mieux car il est divisé par quelque chose de beaucoup plus grand.
Sans un exemple reproductible, il est difficile de dire ce qui peut contribuer.
la source
Je ne pense pas que vous devriez choisir des modèles simplement parce qu'ils fonctionnent mieux dans un échantillon particulier, bien qu'il soit bon que vous ayez utilisé un échantillon de formation et de validation.
Regardez plutôt ce que les modèles disent de votre situation. Dans certains cas, un modèle d'interception nulle est logique. Si le DV doit être égal à 0 lorsque tous les IV sont à 0, alors utilisez un modèle d'interception nulle. Sinon, non.
Des connaissances substantielles devraient guider les statistiques, et non l'inverse
la source
Un modèle sans interception peut avoir un sens si deux conditions sont remplies. Premièrement, il devrait y avoir une attente raisonnable de connaissance de la matière pour que l'interception soit nulle. Deuxièmement, il devrait y avoir une attente raisonnable de connaissance du sujet pour que la ligne de régression reste une ligne droite à l'approche de zéro. Même si les deux conditions sont remplies, il est sage d'effectuer une analyse avec un terme d'interception et de vérifier que l'interception n'est pas significativement différente de zéro.
(Je suppose que vous parlez d'un Y continu et d'un X continu.)
la source
Cela serait compréhensible si l'interception que vous avez obtenue était simplement du bruit - pas du tout. différent de zéro. (Ai-je raison de dire que les coefficients de régression normalisés étaient presque les mêmes dans les deux modèles?) Si c'est le cas, je ne pense pas que vous devriez généraliser à partir de cet exemple. Lorsque les interceptions sont sig. et substantielles, elles ajoutent quelque chose de significatif à la précision prédictive.
la source
En régression linéaire, vous ajustez:
Vous correspondβ données de formation données (X,Y)
Supposons que vous déposez le β0 et adapter le modèle, l'erreur dans l'ajustement:
être plus grand que si vous l'incluiez? Dans tous les cas (non dégénérés), vous pouvez prouver que l'erreur sera identique ou inférieure (sur les données d'entraînement) lorsque vous incluezβ0 puisque le modèle est libre d'utiliser ce paramètre pour réduire l'erreur s'il est présent et aide, et le mettra à zéro s'il n'aide pas. De plus, supposons que vous ayez ajouté une grande constante à y (supposez que votre sortie devait être+10000 que dans vos données de formation d'origine), et remontez le modèle, puis β0 devient clairement très important.
Vous faites peut-être référence à des modèles régularisés lorsque vous dites "supprimés". Les L1 et L2 régularisés, ces méthodes préfèrent garder des coefficients proches de zéro (et vous devriez déjà avoir la moyenne et la variance normalisées votreX au préalable pour que cette étape soit judicieuse. En régularisation, vous avez alors le choix d'inclure ou non le terme d'interception (si nous préférons aussi avoir un petitβ0 ?). Encore une fois, dans la plupart des cas (tous les cas?), Il vaut mieux ne pas régulariserβ0 , car il est peu probable qu'il réduise le sur-ajustement et rétrécisse l'espace des fonctions représentables (en excluant celles β0 ) conduisant à une erreur plus élevée.
Remarque: la régression logistique de scikit régularise l'interception par défaut. Quelqu'un sait pourquoi: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? Je ne pense pas que ce soit une bonne idée .
la source