J'ai une question philosophique concernant le biais variable omis.
Nous avons le modèle de régression typique (modèle de population) où proviennent les échantillons , puis un tas de conditions dans lesquelles les estimations de l'OLS se comportent assez bien.
Nous savons alors que, si nous omettons l'une des principales variables, , cela pourrait biaiser les estimations de \ beta_0, \ beta_1, ..., \ beta_ {k-1}, \ beta_ {k + 1}, .. ., \ beta_n . Cela affecterait, au moins, l'effet estimé du reste des variables sur Y , ainsi que les tests d'hypothèse sur \ beta_1, \ beta_2, ... , car les valeurs prédites ne sont pas fiables.
Le fait est que nous ne savons pas quelles sont les variables du vrai modèle de population. Au lieu de cela, nous avons un tas de candidats à partir desquels nous devons analyser et trouver le sous-ensemble le plus approprié. Ce processus de sélection des variables utilise à nouveau les estimations OLS et les tests d'hypothèses. Sur cette base, nous rejetons ou incluons différentes variables. Mais comme chaque modèle candidat omet des variables pertinentes (vous ne pourrez jamais trouver le vrai modèle), ces décisions ne seraient-elles pas basées sur des résultats biaisés? Pourquoi alors devrions-nous leur faire confiance?
(Je pense à la méthode pas à pas, par exemple, où vous choisissez une variable puis ajoutez le reste. Vous comparez les modèles en faisant l'inférence, et je pense que les variables omises peuvent tout perturber.)
Je n'ai jamais été trop inquiet pour ce sujet jusqu'à ce que j'y pense, et je suis sûr que je me trompe quelque part.
la source
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
c'est vraiment ce que vous vouliez dire ou une partie de votre peine a été interrompue. Vous avez également une faute d'orthographe dans le titre de la question.Réponses:
Le principal problème ici est la nature du biais variable omis . Wikipédia déclare:
Il est important de bien noter le deuxième critère. Vos bêtas ne seront biaisés que dans certaines circonstances. Plus précisément, s'il y a deux variables qui contribuent à la réponse qui sont corrélées l'une avec l'autre, mais que vous n'en incluez qu'une seule, alors (essentiellement) les effets des deux seront attribués à la variable incluse, provoquant un biais dans l'estimation de ce paramètre. Donc, peut-être que certains de vos bêtas sont biaisés, pas nécessairement tous.
Une autre possibilité inquiétante est que si votre échantillon n'est pas représentatif de la population (ce qu'il est rarement vraiment), et que vous omettez une variable pertinente, même si elle n'est pas corrélée avec les autres variables, cela pourrait provoquer un décalage vertical qui biaiserait votre estimation de la intercepter. Par exemple, imaginez une variable,Z , augmente le niveau de la réponse et que votre échantillon est tiré de la moitié supérieure de la Z distribution, mais Z n'est pas inclus dans votre modèle. Ensuite, votre estimation de la réponse moyenne de la population (et de l'ordonnée à l'origine) sera biaisée en dépit du fait queZ n'est pas corrélé avec les autres variables. De plus, il est possible qu'il y ait une interaction entreZ et les variables de votre modèle. Cela peut également provoquer des biais sansZ étant corrélé avec vos variables (je discute de cette idée dans ma réponse ici .)
Maintenant, étant donné que dans son état d'équilibre, tout est finalement corrélé avec tout dans le monde, nous pourrions trouver tout cela très troublant. En effet, lors de recherches observationnelles, il est préférable de toujours supposer que chaque variable est endogène .
Il y a cependant des limites à cela (cf., Inégalité de Cornfield ). Premièrement, la réalisation de véritables expériences rompt la corrélation entre une variable focale (le traitement) et toute variable explicative par ailleurs pertinente, mais non observée. Il existe certaines techniques statistiques qui peuvent être utilisées avec des données d'observation pour tenir compte de ces confusions non observées (prototypiquement: régression des variables instrumentales , mais aussi d'autres).
Mis à part ces possibilités (elles représentent probablement une minorité d'approches de modélisation), quelle est la perspective à long terme pour la science? Cela dépend de l'ampleur du biais et du volume de recherches exploratoires qui sont effectuées. Même si les chiffres sont quelque peu décalés, ils peuvent souvent être dans le quartier et suffisamment proches pour que des relations puissent être découvertes. Ensuite, à long terme, les chercheurs peuvent clarifier les variables pertinentes. En effet, les modélisateurs échangent parfois explicitement un biais accru contre une variance réduite dans les distributions d'échantillonnage de leurs paramètres (cf. ma réponse ici ). À court terme, il convient de toujours se souvenir de la célèbre citation de Box:
Il y a aussi ici une question philosophique potentiellement plus profonde: qu'est-ce que cela signifie que l'estimation est biaisée? Quelle est censée être la «bonne» réponse? Si vous collectez des données d'observation sur l'association entre deux variables (appelez-lesX & Oui ), ce que vous obtenez est finalement la corrélation marginale entre ces deux variables. Ce n'est que le «mauvais» nombre si vous pensez que vous faites autre chose et que vous obtenez plutôt l'association directe. De même, dans une étude visant à développer un modèle prédictif, ce qui vous importe, c'est de savoir si, à l'avenir, vous pourrez deviner avec précision la valeur d'une inconnueOui d'un connu X . Si vous le pouvez, peu importe si c'est (en partie) parce queX est corrélé avec Z qui contribue à la valeur résultante de Oui . Vous vouliez pouvoir prédireOui , et tu peux.
la source