Pourquoi l'erreur de mesure dans la variable dépendante ne biaise-t-elle pas les résultats?

10

Quand il y a une erreur de mesure dans la variable indépendante, j'ai compris que les résultats seront biaisés contre 0. Lorsque la variable dépendante est mesurée avec erreur, ils disent que cela affecte juste les erreurs standard mais cela n'a pas beaucoup de sens pour moi parce que nous sommes estimer l'effet de $X$ non pas sur la variable d'origine $Y$ mais sur un autre $Y$ plus une erreur. Alors, comment cela n'affecte-t-il pas les estimations? Dans ce cas, puis-je également utiliser des variables instrumentales pour supprimer ce problème?

regression econometrics instrumental-variables Matou
la source

16

Lorsque vous voulez estimer un modèle simple comme et au lieu du vrai vous ne l'observez qu'avec une erreur qui est tel qu'il n'est pas corrélé avec et , si vous régressez

{Oui}_{je} = α + β X_{je} + ϵ_{je}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

{\tilde{Y}}_{i} = Y_{i} + ν_{i}

$\widetilde{Y}_i = Y_i + \nu_i$

X

$X$

ϵ

$\epsilon$

votre estimation

est

{\tilde{Oui}}_{je} = α + β X_{je} + ϵ_{je}

$\widetilde{Y}_i = \alpha + \beta X_i + \epsilon_i$

β

$\beta$

car la covariance entre une variable aléatoire et une constante (

) est nulle ainsi que les covariances entre

\begin{aligned} \hat{β} & = \frac{C o v ({\tilde{Oui}}_{je}, X_{je})}{V une r (X_{je})} \\ = \frac{C o v ({Oui}_{je} + ν_{je}, X_{je})}{V une r (X_{je})} \\ = \frac{C o v (α + β X_{je} + ϵ_{je} + ν_{je}, X_{je})}{V une r (X_{je})} \\ = \frac{C o v (α, X_{je})}{V une r (X_{je})} + β \frac{C o v (X_{je}, X_{je})}{V une r (X_{je})} + \frac{C o v (ϵ_{je}, X_{je})}{V une r (X_{je})} + \frac{C o v (ν_{je}, X_{je})}{V une r (X_{je})} \\ = β \frac{V une r (X_{je})}{V une r (X_{je})} \\ = β \end{aligned}

$\begin{align} \widehat{\beta} &= \frac{Cov(\widetilde{Y}_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(Y_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha + \beta X_i + \epsilon_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha ,X_i)}{Var(X_i)} + \beta\frac{Cov(X_i,X_i)}{Var(X_i)} + \frac{Cov(\epsilon_i,X_i)}{Var(X_i)} + \frac{Cov(\nu_i,X_i)}{Var(X_i)} \newline &= \beta \frac{Var(X_i)}{Var(X_i)} \newline &= \beta \end{align}$

α

$\alpha$

X_{i}

$X_i$ et

ϵ_{i}, ν_{i}

$\epsilon_i, \nu_i$ puisque nous avons supposé qu'elles n'étaient pas corrélées.

Vous voyez donc que votre coefficient est systématiquement estimé. La seule inquiétude est que vous donne un terme supplémentaire dans l'erreur qui réduit la puissance de vos tests statistiques. Dans de très mauvais cas d'une telle erreur de mesure dans la variable dépendante, il se peut que vous ne trouviez pas d'effet significatif même s'il peut être présent en réalité. Généralement, les variables instrumentales ne vous aideront pas dans ce cas car elles ont tendance à être encore plus imprécises que l'OLS et elles ne peuvent aider qu'avec l'erreur de mesure dans la variable explicative. $\widetilde{Y}_i = Y_i + \nu_i = \alpha + \beta X_i + \epsilon_i + \nu_i$

Andy
la source

J'ai une question simple ici: que se passe-t-il si le νi, qui est l'erreur de mesure dans la variable dépendante, est corrélé avec la variable indépendante d'intérêt? J'imagine qu'il existe de nombreuses possibilités que cela puisse se produire et que le biais de désirabilité sociale peut être un exemple. Si les répondants à l'enquête présentaient un biais de désirabilité sociale lors de la réponse au (x) questionnaire (s) de variable dépendante, et si cette désirabilité était liée à la variable indépendante, disons l'âge ou le sexe (qui pourrait sans doute être lié à la désirabilité sociale), que se passe-t-il dans termes d'endogénéité alors?

Kang Inkyu

3

L'analyse de régression répond à la question "Quelle est la valeur Y MOYENNE pour ceux qui ont donné des valeurs X?" ou, de manière équivalente, "Combien Y devrait-il changer en MOYENNE si nous changeons X d'une unité?" L'erreur de mesure aléatoire ne modifie pas les valeurs moyennes d'une variable ou les valeurs moyennes de sous-ensembles d'individus, de sorte qu'une erreur aléatoire dans la variable dépendante ne biaisera pas les estimations de régression.

Supposons que vous ayez des données de hauteur sur un échantillon d'individus. Ces hauteurs sont mesurées très précisément, reflétant avec précision la vraie stature de chacun. Dans l'échantillon, la moyenne pour les hommes est de 175 cm et la moyenne pour les femmes est de 162 cm. Si vous utilisez la régression pour calculer dans quelle mesure le sexe prédit la taille, vous estimez le modèle

$\mathit{HEIGHT = CONSTANT + β * GENDER + RESIDUAL}$

$\mathit{CONSTANT}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{RESIDUAL}$ reflète la variance intra-sexe de la taille.)

$\mathit{β}$ $\mathit{β}$

$\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$ sera inférieur à la valeur non biaisée de 13 cm.

$\mathit{GENDER}$ $\mathit{β}$

user175057
la source

Pourquoi l'erreur de mesure dans la variable dépendante ne biaise-t-elle pas les résultats?

Réponses: