relation entre

10

Une question très basique concernant les régressions R2 des OLS

  1. exécuter la régression OLS y ~ x1, nous avons un R2 , disons 0,3
  2. exécuter la régression OLS y ~ x2, nous avons un autre R2 , disons 0,4
  3. maintenant nous exécutons une régression y ~ x1 + x2, quelle valeur le R de cette régression peut-il être?

Je pense qu'il est clair que le R2 pour la régression multiple ne devrait pas être inférieur à 0,4, mais est-il possible qu'il soit supérieur à 0,7?

Olivier Ma
la source
2
Astuce: il pourrait atteindre 1,0. Pourquoi? (Pensez géométriquement. Ou, même spécifiquement, au cercle unitaire.)
Cardinal

Réponses:

4

Le second régresseur peut simplement compenser ce que le premier n'a pas réussi à expliquer dans la variable dépendante. Voici un exemple numérique:

x1yi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared
Christoph Hanck
la source
Merci! J'avais une mauvaise compréhension de r au carré. Je pensais que si x1 + x2 = yalors summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squaredne devrait pas être inférieur à 1. mais il est clair que je me trompe ..
Olivier Ma
3

R2

Il y a un concept qui est critique à cet égard et c'est la corrélation entre les prédicteurs. Si la corrélation est importante, la nouvelle variable non seulement n'apportera rien au modèle mais compliquera également l'inférence pour vos variables existantes, car les estimations deviendront imprécises (multicolinéarité). C'est la raison pour laquelle nous préférerions idéalement que la nouvelle variable soit orthogonale aux autres. Les chances sont minces que cela se produise dans les études d'observation, mais cela peut être accompli dans des contextes contrôlés, par exemple lorsque vous construisez votre propre expérience.

R2

Ainsi, comme @cardinal l'a souligné dans les commentaires, votre nouveau coefficient de détermination pourrait être aussi élevé que 1. Il pourrait également être aussi bas que 0,400001. Il n'y a aucun moyen de le savoir sans informations supplémentaires.

JohnK
la source
@JohnK, pourriez-vous expliquer plus en détail pourquoi doit-il être STRICTEMENT supérieur à 0,4? L'interprétation géométrique de la régression serait-elle utile ici?
Dnaiel
@Dnaiel Le coefficient de détermination n'est pas décroissant par rapport au nombre de variables dans le modèle.
JohnK
3

Coefficient de détermination en régression linéaire multiple: Dans la régression linéaire multiple, le coefficient de détermination peut être écrit en termes de corrélations par paires pour les variables en utilisant la forme quadratique:

R2=ry,xTrx,x1ry,x,

où est le vecteur de corrélations entre le vecteur de réponse et chacun des vecteurs explicatifs, et est la matrice de corrélations entre les vecteurs explicatifs (pour en savoir plus, voir cette question connexe ). Dans le cas d'une régression bivariée, vous avez:ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]1[rY,X1rY,X2]=11rX1,X22[rY,X1rY,X2]T[1rX1,X2rX1,X21][rY,X1rY,X2]=11rX1,X22(rY,X12+rY,X222rX1,X2rY,X1rY,X2).

Vous n'avez pas spécifié les directions des corrélations univariées dans votre question, donc sans perte de généralité, nous noterons . La substitution de vos valeurs et donne:Dsgn(rY,X1)sgn(rY,X2){1,+1}rY,X12=0.3rY,X22=0.4

R2=0.720.12DrX1,X21rX1,X22.

Il est possible que , car il est possible que les informations combinées des deux variables soient supérieures à la somme de ses parties. Ce phénomène intéressant est appelé «amélioration» (voir par exemple Lewis et Escobar 1986 ).R2>0.7

Ben - Réintègre Monica
la source