Modèle de régression linéaire qui convient le mieux aux données contenant des erreurs

9

Je recherche un algorithme de régression linéaire qui convient le mieux à des données dont la variable indépendante (x) a une erreur de mesure constante et la variable dépendante (y) a une erreur dépendante du signal.

entrez la description de l'image ici

L'image ci-dessus illustre ma question.

user46178
la source
1
Si la variable constante x a une erreur de mesure constante et que les erreurs ne sont utilisées que pour pondérer les variables de manière relative, cette situation n'est-elle pas équivalente à l'absence d'erreurs dans x?
pedrofigueira
2
@pedro Ce n'est pas le cas, car les erreurs dans ne sont pas simplement des poids dans une formule. Avec la régression avec erreurs dans les variables, les ajustements différeront et les estimations de covariance des paramètres différeront de la régression ordinaire. x
whuber
1
Merci pour la clarification. Pourriez-vous nous expliquer un peu pourquoi c'est le cas?
pedrofigueira

Réponses:

2

Erreur de mesure dans la variable dépendante

Étant donné un modèle linéaire général avec homosckedastic, non autocorrélé et non corrélé avec les variables indépendantes, soit dénote la "vraie" variable, et sa mesure observable. L'erreur de mesure est définie comme leur différence Ainsi, le modèle estimable est: Puisque sont observé, on peut estimer le modèle par OLS. Si l'erreur de mesure en est statistiquement indépendante de chaque variable explicative, alors

(1)y=β0+β1x1++βkxk+ε
εyyy = β 0 + β 1 x 1 + + β k x k + e + ε y , x 1 , , x k y ( e + ε ) ε t e
e=y-y
(2)y=β0+β1X1++βkXk+e+ε
y,X1,,Xky(e+ε)partage les mêmes propriétés que et les procédures d'inférence OLS habituelles ( statistiques , etc.) sont valides. Cependant, dans votre cas, je m'attendrais à une variance croissante de . Vous pouvez utiliser:εte
  • un estimateur des moindres carrés pondérés (par exemple Kutner et al. , §11.1; Verbeek , §4.3.1-3);

  • l'estimateur OLS, qui est toujours sans biais et cohérent, et les erreurs standard cohérentes avec l'hétéroscédasticité, ou simplement les erreurs standard de Wite ( Verbeek , §4.3.4).

Erreur de mesure dans la variable indépendante

Étant donné le même modèle linéaire que ci-dessus, notons la "vraie" valeur et sa mesure observable. L'erreur de mesure est maintenant: Il y a deux situations principales ( Wooldridge , §4.4.2). x k e k = x k - x kXkXk

ek=Xk-Xk
  • Cov(Xk,ek)=0 : l'erreur de mesure n'est pas corrélée avec la mesure observée et doit donc être corrélée avec la variable non observée ; écrire et le brancher sur (1): puisque et sont pas corrélés avec chaque , y compris , mesure juste augmente la variance d'erreur et ne viole aucune des hypothèses OLS;XkXk=Xk-ek

    y=β0+β1X1++βkXk+(ε-βkek)
    εeXjXk
  • x k y x 1 , , x kCov(Xk,ηk)=0 : l'erreur de mesure n'est pas corrélée avec la variable non observée et doit donc être corrélée avec la mesure observée ; une telle corrélation provoque des prolèmes et la régression OLS de sur donne généralement des estimateurs biaisés et inconsistants.XkyX1,,Xk

Autant que je puisse deviner en regardant votre graphique (erreurs centrées sur les "vraies" valeurs de la variable indépendante), le premier scénario pourrait s'appliquer.

Sergio
la source