Pourquoi les résidus dans la régression linéaire totalisent-ils toujours zéro lorsqu'une intersection est incluse?

14

Je prends un cours sur les modèles de régression et l'une des propriétés fournies pour la régression linéaire est que les résidus résument toujours à zéro lorsqu'une interception est incluse.

Quelqu'un peut-il expliquer pourquoi c'est le cas?

regression residuals dts86
la source

3

Vous voudrez peut-être d'abord réfléchir à la question étroitement liée mais plus simple de savoir pourquoi dans un échantillon univarié, les résidus que vous obtenez en soustrayant la moyenne de l'échantillon de chaque valeur

totalisent

3

Dès que vous reconnaissez que «somme à zéro» signifie «orthogonale à l'une des variables explicatives», la réponse devient géométriquement évidente.

whuber

18

Cela découle directement des équations normales, c'est-à-dire des équations que l'estimateur OLS résout,

X^{'} \underset{e}{\underset{⏟}{(y - X b)}} = 0

$\mathbf{X}^{\prime} \underbrace{\left( \mathbf{y} - \mathbf{X} \mathbf{b} \right)}_{\mathbf{e}} = 0$

Le vecteur à l'intérieur des parenthèses est bien sûr le vecteur résiduel ou la projection de sur le complément orthogonal de l'espace de colonne de , si vous aimez l'algèbre linéaire. Maintenant, l'inclusion d'un vecteur de uns dans la matrice , qui ne doit d'ailleurs pas être dans la première colonne comme cela se fait classiquement, conduit à $\mathbf{y}$ $X$ $\mathbf{X}$

1^{'} e = 0 ⟹ \sum_{i = 1}^{n} e_{i} = 0

$\mathbf{1}^{\prime} \mathbf{e} = 0 \implies \sum_{i=1}^n e_i = 0$

Dans le problème à deux variables, cela est encore plus simple à voir, car la minimisation de la somme des résidus au carré nous amène à

\sum_{i = 1}^{n} (y_{i} - a - b x_{i}) = 0

$\sum_{i=1}^n \left(y_i - a - b x_i \right) = 0$

lorsque nous prenons la dérivée par rapport à l'ordonnée à l'origine. De là, nous procédons à l'obtention de l'estimateur familier

a = \bar{y} - b \bar{x}

$a = \bar{y} - b \bar{x}$

où l'on voit encore que la construction de nos estimateurs impose cette condition.

JohnK
la source

17

Dans le cas où vous recherchez une explication plutôt intuitive.

Dans un certain sens, le modèle de régression linéaire n'est rien d'autre qu'une moyenne fantaisiste. Pour trouver la moyenne arithmétique $\bar{x}$ sur certaines valeurs $x_1, x_2, \dots, x_n$ , nous trouvons une valeur qui est une mesure de centralité en ce sens que la somme de tous les écarts (où chaque écart est défini comme $u_i = x_i - \bar{x}$ ) à droite de la valeur moyenne sont égales à la somme de tous les écarts à gauche de cette moyenne. Il n'y a aucune raison inhérente pour laquelle cette mesure est bonne, encore moins la meilleure façon de décrire la moyenne d'un échantillon, mais elle est certainement intuitive et pratique. Le point important est que, en définissant ainsi la moyenne arithmétique, il s'ensuit nécessairement qu'une fois que nous avons construit la moyenne arithmétique, tous les écarts par rapport à cette moyenne doivent s'additionner à zéro par définition!

En régression linéaire, ce n'est pas différent. Nous ajustons la ligne de telle sorte que la somme de toutes les différences entre nos valeurs ajustées (qui sont sur la ligne de régression) et les valeurs réelles qui sont au - dessus de la ligne soit exactement égale à la somme de toutes les différences entre la ligne de régression et toutes les valeurs en dessous de la ligne. Encore une fois, il n'y a aucune raison inhérente, pourquoi c'est la meilleure façon de construire un ajustement, mais c'est simple et intuitivement attrayant. Tout comme avec la moyenne arithmétique: en construisant nos valeurs ajustées de cette manière, il s'ensuit nécessairement, par construction, que tous les écarts par rapport à cette ligne doivent s'additionner à zéro, sinon ce ne serait pas une régression OLS.

Manuel R
la source

2

+1 pour une réponse directe, simple et intuitive!

3

Lorsque l'ordonnée à l' origine est incluse dans la régression linéaire

{\hat{y}}_{i} = β_{0} + β_{1} x_{i, 1} + β_{2} x_{i, 2} + \dots + β_{p} x_{i, p}

$\hat{y}_i = \beta_0 + \beta_1x_{i,1} + \beta_2x_{i,2} +…+ \beta_px_{i,p}$ Dans la régression des moindres carrés, la somme des carrés des les erreurs sont minimisées.

S S E = \sum_{i = 1}^{n} {(e_{i})}^{2} = \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2} = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{2}

$SSE=\displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum_{i=1}^n\left(y_i - \hat{y_i} \right)^2= \sum_{i=1}^n\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^2$ Prendre la dérivée partielle de SSE par rapport à

β_{0}

$\beta_0$ et le mettre à zéro.

\frac{\partial S S E}{\partial β_{0}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{1} (- 1) = - 2 \sum_{i = 1}^{n} e_{i} = 0

$\frac{\partial{SSE}}{\partial{\beta_0}} = \sum_{i=1}^n 2\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^1 (-1) =-2\displaystyle\sum\limits_{i=1}^ne_i=0$ Par conséquent, les résidus résument toujours à zéro lorsqu'une ordonnée à l'origine est incluse dans la régression linéaire.

DavidCruise
la source

1

$1$ $X$

1 = X e,

$1 = Xe,$

e

$e$

1^{T} (y - \hat{y})

$1^T(y - \hat{y})$

Donc,

\begin{aligned} 1^{T} (y - \hat{y}) = 1^{T} (I - H) y \\ = & e^{T} X^{T} (I - X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T} X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T}) y \\ = & 0. \end{aligned}

$\begin{align} & 1^T(y - \hat{y}) = 1^T(I - H)y \\ = & e^TX^T(I - X(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^TX(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^T)y \\ = & 0. \end{align}$

Zhanxiong
la source

0

Une dérivation simple utilisant l'algèbre matricielle:

$\sum e$ $1^Te$

alors

$1^Te = 1^T(M_x y)$ $M_x$ $M_x$ $(M_x1)^Ty$

$M_x$ $1$ $x$ $1$

Mino
la source

Je ne pense pas que ce soit juste.

Michael R. Chernick

Si vous expliquez pourquoi, je serai heureux d'apprendre quelque chose

Mino

0

$e_i = y_i - [1, X] [a, b] = y_i - Xb - a = v_i - a$
$\frac{d}{da} \sum e_i^2 \propto \sum e_i\cdot 1 = \sum v_i - a = 0$ $\hat{a} = \frac{1}{n}\sum v_i$
$\sum e_i = \sum_i v_i - a = \sum_i v_i - \frac{n}{n}\sum_i v_i = 0$

..

Hunaphu
la source

Pourquoi les résidus dans la régression linéaire totalisent-ils toujours zéro lorsqu'une intersection est incluse?

Réponses: