Une question très basique concernant les régressions des OLS
- exécuter la régression OLS y ~ x1, nous avons un , disons 0,3
- exécuter la régression OLS y ~ x2, nous avons un autre , disons 0,4
- maintenant nous exécutons une régression y ~ x1 + x2, quelle valeur le R de cette régression peut-il être?
Je pense qu'il est clair que le pour la régression multiple ne devrait pas être inférieur à 0,4, mais est-il possible qu'il soit supérieur à 0,7?
regression
multiple-regression
least-squares
r-squared
Olivier Ma
la source
la source
Réponses:
Le second régresseur peut simplement compenser ce que le premier n'a pas réussi à expliquer dans la variable dépendante. Voici un exemple numérique:
x1
x2
la source
x1 + x2 = y
alorssummary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squared
ne devrait pas être inférieur à 1. mais il est clair que je me trompe ..Il y a un concept qui est critique à cet égard et c'est la corrélation entre les prédicteurs. Si la corrélation est importante, la nouvelle variable non seulement n'apportera rien au modèle mais compliquera également l'inférence pour vos variables existantes, car les estimations deviendront imprécises (multicolinéarité). C'est la raison pour laquelle nous préférerions idéalement que la nouvelle variable soit orthogonale aux autres. Les chances sont minces que cela se produise dans les études d'observation, mais cela peut être accompli dans des contextes contrôlés, par exemple lorsque vous construisez votre propre expérience.
Ainsi, comme @cardinal l'a souligné dans les commentaires, votre nouveau coefficient de détermination pourrait être aussi élevé que 1. Il pourrait également être aussi bas que 0,400001. Il n'y a aucun moyen de le savoir sans informations supplémentaires.
la source
Coefficient de détermination en régression linéaire multiple: Dans la régression linéaire multiple, le coefficient de détermination peut être écrit en termes de corrélations par paires pour les variables en utilisant la forme quadratique:
où est le vecteur de corrélations entre le vecteur de réponse et chacun des vecteurs explicatifs, et est la matrice de corrélations entre les vecteurs explicatifs (pour en savoir plus, voir cette question connexe ). Dans le cas d'une régression bivariée, vous avez:ry,x rx,x
Vous n'avez pas spécifié les directions des corrélations univariées dans votre question, donc sans perte de généralité, nous noterons . La substitution de vos valeurs et donne:D≡sgn(rY,X1)⋅sgn(rY,X2)∈{−1,+1} r2Y,X1=0.3 r2Y,X2=0.4
Il est possible que , car il est possible que les informations combinées des deux variables soient supérieures à la somme de ses parties. Ce phénomène intéressant est appelé «amélioration» (voir par exemple Lewis et Escobar 1986 ).R2>0.7
la source