Question sur une preuve d'équation normale

On est tenté d'être glib et de souligner que parce que la forme quadratique

β \to (Y - X β)^{'} (Y - X β)

$\beta \to (Y - X\beta)'(Y - X\beta)$

est semi-défini positif, il existe un pour lequel il est minimum et ce minimum est trouvé (en mettant le gradient par rapport à à zéro) avec les équations normales $\beta$ $\beta$

X^{'} X (Y - X β) = 0,

$X'X(Y - X\beta) = 0,$

d'où il doit y avoir au moins une solution quel que soit le rang de $X'X$ . Cependant, cet argument ne semble pas être dans l'esprit de la question, qui semble être une déclaration purement algébrique. Peut-être est-il intéressant de comprendre pourquoi une telle équation doit avoir une solution et dans quelles conditions précisément. Alors recommençons et faisons comme si nous ne connaissions pas le lien avec les moindres carrés.

Tout se résume au sens de , la transposition de . Il s’agira d’une simple définition, d’une notation appropriée et du concept d’une forme sesquilinéaire non dégénérée. Rappelons que est la "matrice de conception" de lignes (une pour chaque observation) et colonnes (une pour chaque variable, y compris une constante le cas échéant). Il représente donc une transformation linéaire de l'espace vectoriel vers . $X'$ $X$ $X$ $n$ $p$ $\mathbb V = \mathbb{R}^p$ $\mathbb W = \mathbb{R}^n$

La transposition de , considérée comme une transformation linéaire , est une transformation linéaire des espaces doubles . Pour donner un sens à une composition comme , il est donc nécessaire d'identifier avec . C'est ce que fait le produit interne habituel (somme des carrés) sur . $X$ $X': \mathbb{W}^* \to \mathbb{V}^*$ $X'X$ $\mathbb{W}^*$ $\mathbb{W}$ $\mathbb{W}$

Il y a en fait deux produits intérieurs et définis sur et respectivement. Ce sont des fonctions symétriques bilinéaires à valeur réelle qui ne sont pas dégénérées . Ce dernier signifie que $g_V$ $g_W$ $\mathbb V$ $\mathbb W$

g_{W} (u, v) = 0 \forall u \in W ⟹ v = 0,

$g_W(u, v) = 0\ \forall u\in \mathbb W \implies v = 0,$

avec des déclarations analogues pour . Géométriquement, ces produits intérieurs nous permettent de mesurer la longueur et l'angle. La condition peut être considérée comme étant "perpendiculaire" à . La non-dégénérescence signifie que seul le vecteur zéro est perpendiculaire à tout l'espace vectoriel. (Cette généralité signifie que les résultats obtenus ici s'appliqueront au paramètre des moindres carrés généralisés , pour lequel n'est pas nécessairement le produit interne habituel donné comme la somme des produits des composants, mais est une forme non dégénérée arbitraire. Nous pourrions nous passer de tout à fait , définissant $g_V$ $g(u,v)=0$ $u$ $v$ $g_W$ $g_V$ $X':\mathbb W\to\mathbb V^*$ , mais je m'attends à ce que de nombreux lecteurs ne soient pas familiers ou mal à l'aise avec les espaces doubles et choisissent donc d'éviter cette formulation.)

Avec ces produits internes en main, la transposition de toute transformation linéaire est définie par via $X: \mathbb V \to \mathbb W$ $X': \mathbb W \to \mathbb V$

g_{V} (X^{'} (w), v) = g_{W} (w, X (v))

$g_V(X'(w), v) = g_W(w, X(v))$

pour tous et . Qu'il existe réellement un vecteur avec cette propriété peut être établi en écrivant des choses avec des bases pour et ; que ce vecteur est unique résulte de la non-dégénérescence des produits internes. Car si et sont deux vecteurs pour lesquels pour tout , alors (à partir de la linéarité dans la première composante) pour tout impliquant . $w\in \mathbb W$ $v\in \mathbb V$ $X'(w) \in \mathbb V$ $\mathbb V$ $\mathbb W$ $v_1$ $v_2$ $g_V(v_1,v)=g_V(v_2,v)$ $v\in\mathbb V$ $g_V(v_1-v_2,v)=0$ $v$ $v_1-v_2=0$

Lorsque écriture pour l'ensemble de tous les vecteurs perpendiculaires à chaque vecteur dans . Toujours en termes de notation, écrivez pour l'image de , définie comme étant l'ensemble . Une relation fondamentale entre et sa transposition est $\mathbb U \subset \mathbb W,$ $\mathbb{U}^\perp$ $\mathbb U$ $X(\mathbb V)$ $X$ $\{X(v) | v \in \mathbb V\} \subset \mathbb W$ $X$ $X'$

X^{'} (w) = 0 ⟺ w \in X (V)^{⊥} .

$X'(w) = 0 \iff w \in X(\mathbb V)^\perp.$

Autrement dit, est dans le noyau de si et seulement si est perpendiculaire à l'image de . $w$ $X'$ $w$ $X$ Cette affirmation dit deux choses:

Si , alors pour tous les , qui se contentent de signifie que est perpendiculaire à . $X'(w) = 0$ $g_W(w, X(v)) = g_V(X'(w),v) = g_V(0,v)=0$ $v\in\mathbb V$ $w$ $X(V)$
Si est perpendiculaire à , cela signifie seulement pour tout , mais cela équivaut à et la non-dégénérescence de implique . $w$ $X(\mathbb V)$ $g_W(w, X(v)) = 0$ $v\in\mathbb V$ $g_V(X'(w), v) = 0$ $g_V$ $X'(w)=0$

Nous avons en fait fini maintenant. L'analyse a montré que décompose en produit direct . Autrement dit, nous pouvons prendre n'importe quel arbitraire et l'écrire uniquement comme avec et . Ce que des moyens est de la forme pour au moins un . Remarquez donc que $\mathbb W$ $\mathbb W = X(\mathbb V) \oplus X(\mathbb V)^\perp$ $y \in \mathbb W$ $y = y_0 + y^\perp$ $y_0\in X(\mathbb V)$ $y^\perp \in X(\mathbb V)^\perp$ $y_0$ $X(\beta)$ $\beta\in\mathbb V$

y - X β = (y_{0} + y^{⊥}) - y_{0} = y^{⊥} \in X (V)^{⊥}

$y - X\beta = (y_0 + y^\perp) - y_0 = y^\perp \in X(\mathbb V)^\perp$

La relation fondamentale dit que c'est la même chose que le côté gauche étant dans le noyau de : $X'$

X^{'} (y - X β) = 0,

$X'(y - X\beta) = 0,$

d'où résout les équations normales $\beta$ $X'X\beta = X'y.$

Nous sommes maintenant en mesure de donner une brève réponse géométrique à la question (avec quelques commentaires révélateurs): les équations normales ont une solution parce que tout -vecteur décompose (uniquement) comme la somme d'un vecteur dans l'intervalle de et un autre vecteur perpendiculaire à et est l'image d'au moins une -vector . La dimension de l'image (son rang ) est la dimension des paramètres identifiables . La dimension du noyau de $n$ $y\in\mathbb W$ $y_0$ $X$ $y^\perp$ $y_0$ $y_0$ $p$ $\beta\in\mathbb V$ $X(\mathbb V)$ $X$ compte les relations linéaires non triviales parmi les paramètres. Tous les paramètres sont identifiables lorsque est un-à-un plan de à son image dans . $X$ $\mathbb V$ $\mathbb W$

Il est finalement utile de se passer de l'espace tout à fait et le travail entièrement avec le sous - espace , l ' « espace de colonne » de la matrice . La quantité des équations normales à la projection orthogonale sur . Cela nous libère conceptuellement d'être lié à une paramétrisation particulière du modèle et montre que les modèles des moindres carrés ont une dimension intrinsèque indépendante de la façon dont ils se trouvent être paramétrisés. $\mathbb V$ $\mathbb U = X(\mathbb V)\subset\mathbb W$ $X$ $\mathbb U$

Un résultat intéressant de cette démonstration algébrique abstraite est que nous pouvons résoudre les équations normales dans des espaces vectoriels arbitraires. Le résultat vaut, par exemple, pour les espaces complexes, pour les espaces sur des champs finis (où minimiser une somme de carrés n'a pas de sens), et même sur des espaces de dimension infinie qui prennent en charge des formes séquilinéaires appropriées.

whuber
la source

Je n'ai jamais eu le représentant d'accepter cette réponse que beaucoup plus tard. Je suis juste revenu sur ce sujet et je voulais encore vous remercier!

Ryati

J'écrirais cette forme quadratique comme plutôt que comme et utilisez l'autre flèche pour des choses comme

β \mapsto (Y - X β)^{'} (Y - X β)

$\beta \mapsto (Y - X\beta)'(Y - X\beta)$

β \to (Y - X β)^{'} (Y - X β),

$\beta \to (Y - X\beta)'(Y - X\beta),$

f : A \to B .

$f:A\to B. \qquad$

Michael Hardy

@Michael Il doit y avoir une erreur typographique dans votre commentaire. Pourriez-vous clarifier ce que vous vouliez dire?

whuber

@whuber: Je ne trouve aucune erreur typographique. Le fait est que les deux flèches et ont des significations différentes.

“ \mapsto''

$\text{“}\mapsto\text{''}$

“ \to''

$\text{“}\to\text{''}$

$\qquad$

Michael Hardy

@Michael Pardonnez-moi de ne pas voir cette distinction, malgré de nombreuses lectures. Quoi qu'il en soit, pour moi, la première flèche fait référence à une fonction injective tandis que la seconde fait référence à n'importe quelle fonction, mais je soupçonne que ce n'est pas ce que vous voulez. Pourriez-vous expliquer votre notation?

whuber

Il est facile de montrer (essayez par vous-même, pour un nombre arbitraire de points, ) que l'inverse de existe s'il y a au moins deux valeurs distinctes (prédicteurs) dans l'échantillon. Seulement si toutes vos données ont les mêmes valeurs (c'est-à-dire des points empilés dans la direction , le long d'une ligne verticale), alors toute ligne tracée à travers leur moyenne aura une pente arbitraire (coefficient de régression) , de sorte que la ligne de régression LSE n'est alors pas unique. $n$ $X^T X$ $x$ $x_i=x$ $y$ $\overline{y}$

Lucozade
la source

Pour être complet, pour une régression linéaire simple, tandis que pour une régression linéaire multiple.

X = [1 x_{1}; 1 x_{2}; \dots; 1 x_{n}]

$X=[1 ~x_1; 1 ~x_2; \ldots; 1 ~x_n]$

X = [1 x_{11} \dots x_{m 1}; \dots; 1 x_{1 n} \dots x_{m n}]

$X=[1 ~x_{11} \ldots x_{m1}; \ldots; 1 ~x_{1n} \ldots x_{mn}]$

Lucozade

La référence à la régression multiple dans le commentaire est déroutante, car cette réponse ne s'applique clairement qu'au cas de la régression ordinaire où l'on ajuste une "ligne" plutôt qu'une surface de dimension supérieure. De plus, vous semblez avoir répondu à une autre question: celle-ci ne pose que des questions sur le cas où n'est pas inversible.

X^{'} X

$X'X$

whuber

Question sur une preuve d'équation normale

Réponses: