Est-il possible que d'une régression sur deux variables soit supérieur à la somme de pour deux régressions sur les variables individuelles?

8

En OLS, est-il possible que le d'une régression sur deux variables soit supérieur à la somme de pour deux régressions sur les variables individuelles.R2R2

R2(YA+B)>R2(YA)+R2(YB)

Edit: Ugh, c'est trivial; c'est ce que j'obtiens en essayant de résoudre des problèmes auxquels je pensais au gymnase. Désolé d'avoir encore perdu du temps. La réponse est clairement oui.

YN(0,1)

AN(0,1)

B=YA

R2(YA+B)=1 , clairement. Mais R2(YA) devrait être 0 dans la limite et R2(YB) devrait être 0,5 dans la limite.

bsdfish
la source
Demandez-vous l'inégalité dans l'équation d'affichage (impliquant la somme résiduelle des carrés ) ou posez-vous des questions sur une inégalité impliquant la phrase précédant cette équation, c'est-à-dire impliquant R2 , le coefficient de détermination?
Cardinal
J'étais intéressé par ; modifié pour résoudre le problème. R2
bsdfish
Bon . Il y a aussi de belles explications géométriques.
Cardinal
3
Vous pouvez modifier votre réponse et la mettre en tant que réponse réelle, afin que la question ne reste pas "sans réponse".
Karl
Y a-t-il une chance que nous puissions obtenir une réponse intuitive à cela? si est expliqué en pourcentage de la variance, alors comment expliquer davantage la variance avec le modèle complet qu'avec un modèle dédié pour chaque variable? R2
kmace

Réponses:

4

Voici un peu de R qui définit une graine aléatoire qui se traduira par un ensemble de données qui la montrera en action.

set.seed(103)

d <- data.frame(y=rnorm(20, 0, 1),
                a=rnorm(20, 0, 1),
                b=rnorm(20, 0, 1))

m1 <- lm(y~a, data=d)
m2 <- lm(y~b, data=d)
m3 <- lm(y~a+b, data=d)

r2.a <- summary(m1)[["r.squared"]]
r2.b <- summary(m2)[["r.squared"]]
r2.sum <- summary(m3)[["r.squared"]]

r2.sum > r2.a + r2.b

Non seulement il est possible (comme vous l'avez déjà montré analytiquement), ce n'est pas difficile à faire. Étant donné 3 variables normalement distribuées, cela semble se produire environ 40% du temps.

Benjamin Mako Hill
la source
Sensationnel. Vous les gars du MIT devez avoir plus de temps que
prévu
J'étais coincé dans une longue journée de réunions. :)
Benjamin Mako Hill
-1

Ce n'est pas possible. De plus, si A et B sont corrélés (si leur r est non nul), le rsq de la régression sur les deux sera inférieur à la somme des rsq de leurs régressions individuelles.

Notez que même si A et B sont complètement non corrélés, les rsq ajustés (qui pénalisent pour un faible rapport cas / prédicteur) peuvent être légèrement différents entre les deux solutions.

Peut-être que vous aimeriez partager plus sur les preuves empiriques qui vous ont traversé.

rolando2
la source
Vous voudrez peut-être repenser cela. Ou essayez une simulation. :)
Cardinal
Notez qu'il est exactement quand et sont fortement corrélées que l' on ne fait voir l'inégalité indiqué dans la question. :)AB
Cardinal
Considérez le scénario extrême suivant, dans lequel je vais utiliser plus classique et au lieu de et . Prenez une distribution normale (latente) bivariée. Soit la projection de la normale bivariée sur le vecteur propre avec la plus grande valeur propre. Soit la projection sur le vecteur propre de la plus petite valeur propre. Pour tout , let . Ensuite, le pour est nul et le pour peut être rendu arbitrairement petit. Mais, le deX1X2ABYX10<ρ<1X2=ρY+1ρ2XR2X1R2X2R2X1+X2est toujours 1 (pourquoi?). Vous pourriez peut-être envisager de modifier votre message.
Cardinal
... et par je veux dire le modèle qui incorpore les deux prédicteurs, pas leur somme réelle. Une meilleure notation serait probablement via la somme directe . X1+X2X1X2
cardinal