Erreur systématique / de mesure sur une régression linéaire

Supposons que j'ai un ensemble de données ${(x_i,y_i)}$ dans lequel l'incertitude des mesures ${(\Delta x_i,\Delta y_i)}$ (qui proviennent de la propagation d'erreurs systématiques de l'appareil de mesure) est différent pour chaque point. Si je fais une régression linéaire sur l'ensemble de données, comment puis-je calculer l'incertitude de la pente? Je voudrais une procédure ou une formule explicite.

linear-model measurement-error errors-in-variables Iván Mauricio Burbano
la source

Avez-vous une idée de l'erreur de mesure la plus importante?

Dimitriy V. Masterov

Par deltas, voulez-vous dire la différence entre les mesures séquentielles? Vos données sont-elles séquentielles? Vous attendez-vous à ce que l'erreur soit corrélée? Vous attendez-vous à ce que la corrélation se dégrade? Avez-vous des réplications indépendantes? Plus d'informations sont nécessaires pour apporter une réponse concrète.

user3903581

Le terme que vous recherchez est la propagation d'erreur. Vous avez des erreurs côté entrée et calculez (plus précisément: estimez) deux paramètres à partir de celui-ci. Malheureusement, le nom de «régression linéaire» ne décrit qu'un modèle (populaire), mais pas la méthode par laquelle vous estimez les paramètres. Pour les méthodes les plus utilisées, vous pouvez probablement rechercher la solution (par exemple les moindres carrés). Sinon, vous pouvez soit le calculer analytiquement, soit l'approcher par une évaluation numérique.

chérubin

Réponses:

Nous pouvons modéliser l'expérience comme

x_{i} = x_{i}^{*} + {\tilde{u}}_{i}

$x_i=x_i^*+\tilde u_i$

y_{i} = y_{i}^{*} + {\tilde{v}}_{i}

$y_i=y_i^*+\tilde v_i$

{\tilde{u}}_{i} = \bar{u} + v_{i}

$\tilde u_i=\bar u + v_i$

{\tilde{v}}_{i} = \bar{v} + u_{i}

$\tilde v_i=\bar v + u_i$ où

x_{i}^{*}, y_{i}^{*}

$x_i^*, y_i^*$ dénoter les vraies valeurs,

{\tilde{u}}_{i}, {\tilde{v}}_{i}

$\tilde u_i,\tilde v_i$ sont des erreurs de mesure,

\bar{u}, \bar{v}

$\bar u,\bar v$ leurs composants "fixes" sont-ils indépendants de l'observation (qui pourraient résulter d'un mauvais étalonnage des capteurs) et

u, v

$u,v$ varient d'une observation à l'autre et correspondent à de nombreux facteurs possibles que nous considérons comme aléatoires.

Une régression linéaire simple est

y_{i}^{*} = α + β x_{i}^{*} + e_{i}

$y_i^*=\alpha+\beta x_i^*+e_i$ et l'estimation OLS de la pente est

\hat{β} = \frac{C o v (x^{*}, y^{*})}{V a r (x^{*})}

$\hat\beta=\frac{Cov(x^*,y^*)}{Var(x^*)}$ Ce que nous obtenons est cependant

\tilde{β} = \frac{C o v (x, y)}{V a r (x)} = \frac{C o v (x^{*} + u, y^{*} + v)}{V a r (x^{*} + u)} = \frac{C o v (x^{*}, y^{*}) + C o v (x^{*}, v) + C o v (y^{*}, u) + C o v (u, v)}{V a r (x^{*}) + V a r (u) + 2 C o v (x, u)}

$\tilde\beta=\frac{Cov(x,y)}{Var(x)}=\frac{Cov(x^* + u,y^*+ v)}{Var(x^* + u)}=\frac{Cov(x^*,y^*)+Cov(x^*,v)+Cov(y^*,u)+Cov(u,v)}{Var(x^*) + Var(u) + 2Cov(x,u)}$

Supposons maintenant que $v,u$ ne sont pas corrélés avec $x^*,y^*$ et mutuellement (une hypothèse assez forte qui peut être améliorée si nous avons plus d'inférences sur la nature des erreurs). Alors notre estimation est

\tilde{β} = β \frac{σ_{x^{*}}^{2}}{σ_{x^{*}}^{2} + σ_{u}^{2}} \approx β \frac{{\hat{σ}}_{x}^{2} - {\hat{σ}}_{u}^{2}}{{\hat{σ}}_{x}^{2}} = β \hat{λ}

$\tilde\beta=\beta\frac{\sigma^2_{x^*}}{\sigma^2_{x^*}+\sigma^2_{u}}\approx\beta\frac{\hat\sigma^2_x-\hat\sigma^2_u}{\hat\sigma^2_x}=\beta\hat\lambda$ On peut estimer

{\hat{σ}}_{x}^{2}

$\hat\sigma^2_x$ comme variation d'échantillon de

x_{i}

$x_i$ . Nous devons également estimer

σ_{u}^{2}

$\sigma^2_u$ . Si nous avons une expérience quand nous pouvons observer

x_{i}^{*}

$x^*_i$ plusieurs fois, alors une approche simple consiste à estimer

σ_{u}^{2} = E [σ_{x}^{2} | x_{i}^{*}

$\sigma^2_u=E[\sigma^2_x|x^*_i$ ].

Maintenant, nous pouvons utiliser notre $\hat\sigma^2_{\tilde\beta}$ calculé avec, par exemple, la méthode bootstrap, et le corriger pour $\hat\beta =\tilde\beta /\hat\lambda$ pour que

{\hat{σ}}_{\hat{β}}^{2} = \frac{{\hat{σ}}_{\tilde{β}}^{2}}{{\hat{λ}}^{2}}

$\hat\sigma^2_{\hat\beta}=\frac{\hat\sigma^2_{\tilde\beta}}{\hat\lambda^2}$ .

yshilov
la source

Je pense que la réponse donnée par @yshilov est vraiment impressionnante en considérant l'erreur de mesure dans le terme d'erreur et de manière significative, déduit le résultat

\tilde{β} = β \frac{σ_{x}^{2}}{σ_{x}^{2} + σ_{u}^{2}}

$\tilde \beta = \beta \frac{\sigma_x^2}{\sigma_x^2 + \sigma_u^2}$

Pour élaborer, ce bêta a des propriétés spéciales qu'il est un estimateur biaisé, mais biaisé vers 0. Plus précisément, pour la régression linéaire, $E(\hat \beta_1)=\beta_1 \cdot\Big[\frac{\sigma_x^2+\sigma_{x\delta}}{\sigma_x^2+2\sigma_{x\delta}+\sigma_{\delta}^2}\Big]$

La preuve est la suivante: en simple régression linéaire, rappel

{\hat{β}}_{1} = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) y_{i}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}

$\hat \beta_1 = \frac{\sum_{i=1}^n(x_i-\bar x)y_i}{\sum_{i=1}^n(x_i-\bar x)^2}$ En cas d'erreur de mesure, nous avons

x_{i}^{O} = x_{i}^{A} = δ_{i}

$x_i^O=x_i^A=\delta_i$ ,

y_{i}^{O} = y_{i}^{A} + ϵ_{i}

$y_i^O=y_i^A+\epsilon_i$ , et

y_{i}^{A} = β_{0} + β_{1} x_{i}^{A}

$y_i^A=\beta_0 +\beta_1 x_i^A$ , donc nous obtenons

y_{i}^{O} = β_{0} + β_{1} (x_{i}^{O} - δ_{i}) + ϵ_{i} = β_{0} + β_{1} x_{i}^{O} + (ϵ_{i} - β_{1} δ_{i})

$y_i^O=\beta_0+\beta_1(x_i^O-\delta_i)+\epsilon_i=\beta_0+\beta_1x_i^O+(\epsilon_i-\beta_1 \delta_i)$ En admettant que

E (ϵ_{i}) = E (δ_{i}) = 0

$E(\epsilon_i)=E(\delta_i)=0$ ,

v a r (ϵ_{i}) = σ_{ϵ}^{2}

$var(\epsilon_i)=\sigma_{\epsilon}^2$ ,

v a r (δ_{i}) = σ_{δ}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (δ_{i} - \bar{δ})^{2}

$var(\delta_i)=\sigma_{\delta}^2 = \frac{1}{n}\sum_{i=1}^n(\delta_i-\bar \delta)^2$ et la variance de la valeur réelle du prédicteur

σ_{x}^{2} = \frac{\sum (x_{i}^{A} - \bar{x^{A}})^{2}}{n}

$\sigma_{x}^2=\frac{\sum(x_i^A-\bar {x^A})^2}{n}$ et corrélation du vrai prédicteur et de l'erreur

σ_{x δ} = c o v (x^{A}, δ) = \frac{1}{n} \sum_{i = 1}^{n} (x_{i}^{A} - \bar{x_{i}^{A}}) (δ_{i} - \bar{δ})

$\sigma_{x \delta}=cov(x^A,\delta)= \frac{1}{n}\sum_{i=1}^n(x_i^A-\bar {x_i^A})(\delta_i- \bar \delta)$ , puis

c o v (x_{i}^{O}, δ) = E (x_{i}^{O} δ) - E (x_{i}^{O}) \cdot E (δ) = E (x_{i}^{O} δ) = E [(x_{i}^{A} + δ) δ] = E (x_{i}^{A} δ) + E (δ^{2})

$cov(x_i^O,\delta)=E(x_i^O\delta)-E(x_i^O)\cdot E(\delta)=E(x_i^O\delta)=E[(x_i^A+\delta)\delta]=E(x_i^A \delta)+E(\delta^2)$

= [E (x_{i}^{A} δ) - E (x_{i}^{A}) \cdot E (δ)] + [v a r (δ) + [E (δ)]^{2}] = c o v (x_{i}^{A}, δ) + σ_{δ}^{2} = σ_{x δ} + σ_{δ}^{2}

$=\big[E(x_i^A \delta)-E(x_i^A)\cdot E(\delta)\big]+\big[var(\delta)+[E(\delta)]^2\big]=cov(x_i^A,\delta)+\sigma_{\delta}^2=\sigma_{x\delta}+\sigma_{\delta}^2$ Puis par

\bar{x} = E (x_{i})

$\bar x = E(x_i)$ et la propriété de bilinéarité en covariance, l'attente de

{\hat{β}}_{1}

$\hat \beta_1$ est

E ({\hat{β}}_{1}) = E [\frac{\sum_{i = 1}^{n} (x_{i}^{O} - {\bar{x}}^{O}) y_{i}^{O}}{\sum_{i = 1}^{n} (x_{i}^{O} - {\bar{x}}^{O})^{2}}] = \frac{E (\sum_{i = 1}^{n} x_{i}^{O} y_{i}^{O}) - E (\sum_{i = 1}^{n} {\bar{x}}^{O} y_{i}^{O})}{\sum_{i = 1}^{n} E [(x_{i}^{O} - E (x_{i}^{O}))^{2}]} = \frac{E (\sum_{i = 1}^{n} x_{i}^{O} y_{i}^{O}) - E (x_{i}^{O}) \cdot E (\sum_{i = 1}^{n} y_{i}^{O})}{\sum_{i = 1}^{n} v a r (x_{i}^{O})}

$E(\hat \beta_1)=E\Big[\frac{\sum_{i=1}^n(x_i^O-\bar x^O)y_i^O}{\sum_{i=1}^n(x_i^O-\bar x^O)^2}\Big]=\frac{E(\sum_{i=1}^nx^O_iy_i^O)-E(\sum_{i=1}^n \bar x^Oy_i^O)}{\sum_{i=1}^n E\big[(x_i^O-E(x_i^O))^2\big]}=\frac{E(\sum_{i=1}^nx_i^Oy_i^O)-E(x_i^O)\cdot E(\sum_{i=1}^n y_i^O)}{\sum_{i=1}^nvar(x_i^O)}$

= \frac{\sum_{i = 1}^{n} c o v (y_{i}^{O}, x_{i}^{O})}{\sum_{i = 1}^{n} v a r (x_{i}^{O})} = \frac{\sum_{i = 1}^{n} c o v (β_{0} + β_{1} x_{i}^{O} + ϵ_{i} - β_{1} δ_{i}, x_{i}^{O})}{\sum_{i = 1}^{n} v a r (x_{i}^{O})} = \frac{β_{1} \cdot \sum_{i = 1}^{n} v a r (x_{i}^{O}) - β_{1} \cdot \sum_{i = 1}^{n} c o v (x_{i}^{O}, δ_{i})}{\sum_{i = 1}^{n} v a r (x_{i}^{O})}

$=\frac{\sum_{i=1}^ncov(y_i^O,x_i^O)}{\sum_{i=1}^nvar(x_i^O)}=\frac{\sum_{i=1}^ncov(\beta_0+\beta_1x_i^O+\epsilon_i-\beta_1\delta_i,~x_i^O)}{\sum_{i=1}^nvar(x_i^O)}=\frac{\beta_1\cdot \sum_{i=1}^nvar(x_i^O)-\beta_1\cdot \sum_{i=1}^ncov(x_i^O, \delta_i)}{\sum_{i=1}^nvar(x_i^O)}$

= β_{1} \cdot [1 - \frac{\sum_{i = 1}^{n} c o v (x_{i}^{O}, δ_{i}) / n}{\sum_{i = 1}^{n} v a r (x_{i}^{A} + δ_{i}) / n}] = β_{1} \cdot [1 - \frac{σ_{x δ} + σ_{δ}^{2}}{σ_{x}^{2} + 2 c o v (x_{i}^{A}, δ_{i}) + σ_{δ}^{2}}] = β_{1} \cdot [\frac{σ_{x}^{2} + σ_{x δ}}{σ_{x}^{2} + 2 σ_{x δ} + σ_{δ}^{2}}]

$=\beta_1 \cdot \Big[ 1-\frac{{\sum_{i=1}^ncov(x_i^O,\delta_i)}/{n}}{\sum_{i=1}^nvar(x_i^A+\delta_i)/n}\Big]=\beta_1 \cdot\Big[1-\frac{\sigma_{x\delta}+\sigma_{\delta}^2}{\sigma_x^2+2cov(x_i^A,\delta_i)+\sigma_{\delta}^2}\Big] =\beta_1 \cdot\Big[\frac{\sigma_x^2+\sigma_{x\delta}}{\sigma_x^2+2\sigma_{x\delta}+\sigma_{\delta}^2}\Big]$ , as desired. Hence, the result

E ({\hat{β}}_{1}) = β_{1} \cdot [\frac{σ_{x}^{2} + σ_{x δ}}{σ_{x}^{2} + 2 σ_{x δ} + σ_{δ}^{2}}]

$E(\hat \beta_1)=\beta_1 \cdot\Big[\frac{\sigma_x^2+\sigma_{x\delta}}{\sigma_x^2+2\sigma_{x\delta}+\sigma_{\delta}^2}\Big]$ is well-established.

son520804
la source

I have a similar problem - posted here - and no certain answer still. What I did for the moment is simply gather a set of very similar Xs and check if there's a big variation for Y within those lines. Another kind of approach could be some a simulation: you use a single X from your dataset, but replicate the lines following the predictors systematic error (something like rnorm(...,0,0.3)). The confidence interval for slope may be something similar to the systematic error span.

Paolo Nadalutti
la source

I would recommend a parametric bootstrap on the data. That means generating new datasets that are similar to the real dataset, but are different to the extent implied by your uncertainty in each observation.

Here's some pseudo-code for that. Notice I'm using vector inputs to rnorm, as is normal in the R language. Also I'm assuming that what you are calling $\Delta$ are standard errors.

For each b in 1...B:
    x_PB = rnorm(x, x_se)
    y_PB = rnorm(y, y_se)
    r[b] = cor(x_PB, y_PB)

Then look at the distribution of the values in r.

rcorty
la source