Estimation de

14

J'ai un modèle économique théorique qui est le suivant,

y=a+b1x1+b2x2+b3x3+u

La théorie dit donc qu'il y a x1 , x2 et x3 facteurs pour estimer y .

Maintenant, j'ai les données réelles et j'ai besoin d'estimer b1 , b2 , b3 . Le problème est que l'ensemble de données réelles ne contient que des données pour x1 et x2 ; il n'y a pas de données pour x3 . Donc, le modèle que je peux adapter est en fait:

y=a+b1x1+b2x2+u
  • Est-il correct d'estimer ce modèle?
  • Dois-je perdre quelque chose en l'estimant?
  • Si j'évalue , b 2 , alors où va le terme b 3 x 3 ?b1b2b3x3
  • Est-ce dû au terme d'erreur ?u

Et nous voudrions supposer que n'est pas corrélé avec x 1 et x 2 .x3x1x2

la rancune
la source
Pouvez-vous donner des détails sur votre ensemble de données, je veux dire, votre variable dépendante et les variables indépendantes x 1 et x 2 ? yx1x2
Vara
Considérez-le comme un exemple hypothétique sans ensemble de données spécifiques ...
renathy

Réponses:

20

Le problème dont vous devez vous soucier est appelé endogénéité . Plus précisément, cela dépend si est corrélé dans la population avec x 1 ou x 2 . Si tel est le cas, les b j s associés seront biaisés. En effet, les méthodes de régression OLS forcent les résidus, u i , à ne pas être corrélés avec vos covariables, x j s. Cependant, vos résidus sont composés d'un certain caractère aléatoire irréductible, ε i , et de la variable non observée (mais pertinente), x 3 , qui par stipulationx3x1x2bjuixjεix3est corrélé avec et / ou x 2 . D'autre part, si les deux x 1 et x 2 sont décorrélés avec x 3 dans la population, leur b s ne sera pas biaisée par ce (ils pourraient bien être biaisées par autre chose, bien sûr). Les économétriciens tentent de résoudre ce problème en utilisant des variables instrumentales . x1x2 x1x2x3b

Pour plus de clarté, j'ai écrit une simulation rapide en R qui démontre que la distribution d'échantillonnage de est non biaisée / centrée sur la vraie valeur de β 2 , lorsqu'elle n'est pas corrélée avec x 3 . Dans la deuxième manche, cependant, notez que x 3 n'est pas corrélé avec x 1 , mais pas x 2 . Pas par coïncidence, b 1 est sans biais, mais b 2 est biaisé. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64
gung - Réintégrer Monica
la source
Alors, pouvez-vous expliquer un peu plus - que se passe-t-il si nous supposons que x3 n'est pas corrélé avec $ x_1 et x2? Que se passe-t-il alors si j'estime y = a + b1x1 + b2x2 + u?
renathy
1
sera incorporé dans les résidus de toute façon, maiss'iln'est pas corrélé dans la population, alors vos autres b s ne seront pas biaisés par l'absence de x 3 , mais si ce n'est pas non corrélé, ils le seront. b3x3bx3
gung - Rétablir Monica
Pour le dire plus clairement: si n'est pas corrélé avec x 1 ou x 2 , vous êtes OK. x3x1x2
gung - Rétablir Monica
J'examine le revers de ce problème dans ma réponse ici: l' ajout de variables dans une régression multivariable modifie-t-il les coefficients des variables existantes?
gung - Réintégrer Monica
3

Pensons à cela en termes géométriques. Pensez à une "balle", la surface d'une balle. Il est décrit comme . Maintenant, si vous avez les valeurs de x 2 , y 2 , z 2 et que vous avez des mesures de r 2, vous pouvez déterminer vos coefficients "a", "b" et "c". (Vous pouvez l'appeler ellipsoïde, mais l'appeler une balle est plus simple.)r2=ax2+by2+cz2+ϵx2y2z2r2

Si vous n'avez que les termes et y 2 , vous pouvez faire un cercle. Au lieu de définir la surface d'une balle, vous décrirez un cercle rempli. L'équation que vous ajustez à la place est r 2a x 2 + b y 2 + ϵ . x2y2r2ax2+by2+ϵ

Vous projetez la "boule", quelle que soit sa forme, dans l'expression du cercle. Il pourrait s'agir d'une "boule" diagonalement orientée qui a plus la forme d'une aiguille à coudre, et donc les composantes détruisent complètement les estimations des deux axes. Ce pourrait être une balle qui ressemble à un m & m presque écrasé où les axes des pièces sont "x" et "y", et il n'y a aucune projection. Vous ne pouvez pas savoir de quoi il s'agit sans les informations " z ".zz

Ce dernier paragraphe parlait d'un cas de "pure information" et ne tenait pas compte du bruit. Les mesures du monde réel ont le signal avec du bruit. Le bruit le long du périmètre qui est aligné sur les axes va avoir un impact beaucoup plus fort sur votre ajustement. Même si vous avez le même nombre d'échantillons, vous allez avoir plus d'incertitude dans vos estimations de paramètres. S'il s'agit d'une équation différente de celle de ce cas simple axé sur l'axe linéaire, alors les choses peuvent devenir " en forme de poire ". Vos équations actuelles sont en forme d'avion, donc au lieu d'avoir une limite (la surface de la balle), les données z peuvent simplement aller sur toute la carte - la projection pourrait être un problème grave.

Peut-on modéliser? C'est un appel au jugement. Un expert qui comprend les détails du problème pourrait y répondre. Je ne sais pas si quelqu'un peut donner une bonne réponse s'il est loin du problème.

Vous perdez plusieurs bonnes choses, y compris la certitude dans les estimations des paramètres et la nature du modèle en cours de transformation.

L'estimation de disparaît dans epsilon et dans les autres estimations de paramètres. Elle est subsumée par toute l'équation, selon le système sous-jacent.b3

EngrStudent - Réintégrer Monica
la source
f(x,y,z)
Je ne suis pas en mesure de suivre votre argument car je ne vois rien qui corresponde à un "carré rempli".
whuber
0

Les autres réponses, sans se tromper, compliquent un peu plus le problème.

x3x1x2β3x3

Daniel Ludwinski
la source