Comment pouvez-vous prouver que les équations normales: ont une ou plusieurs solutions sans supposer que X est inversible?
Ma seule supposition est que cela a quelque chose à voir avec l'inverse généralisé, mais je suis totalement perdu.
regression
proof
Ryati
la source
la source
Réponses:
On est tenté d'être glib et de souligner que parce que la forme quadratique
est semi-défini positif, il existe un pour lequel il est minimum et ce minimum est trouvé (en mettant le gradient par rapport à à zéro) avec les équations normalesββ β
d'où il doit y avoir au moins une solution quel que soit le rang deX′X . Cependant, cet argument ne semble pas être dans l'esprit de la question, qui semble être une déclaration purement algébrique. Peut-être est-il intéressant de comprendre pourquoi une telle équation doit avoir une solution et dans quelles conditions précisément. Alors recommençons et faisons comme si nous ne connaissions pas le lien avec les moindres carrés.
Tout se résume au sens de , la transposition de . Il s’agira d’une simple définition, d’une notation appropriée et du concept d’une forme sesquilinéaire non dégénérée. Rappelons que est la "matrice de conception" de lignes (une pour chaque observation) et colonnes (une pour chaque variable, y compris une constante le cas échéant). Il représente donc une transformation linéaire de l'espace vectoriel vers . X X n p V = R p W = R nX′ X X n p V=Rp W=Rn
La transposition de , considérée comme une transformation linéaire , est une transformation linéaire des espaces doubles . Pour donner un sens à une composition comme , il est donc nécessaire d'identifier avec . C'est ce que fait le produit interne habituel (somme des carrés) sur .X X ′ X W ∗ W WX′:W∗→V∗ X′X W∗ W W
Il y a en fait deux produits intérieurs et définis sur et respectivement. Ce sont des fonctions symétriques bilinéaires à valeur réelle qui ne sont pas dégénérées . Ce dernier signifie queg W V WgV gW V W
avec des déclarations analogues pour . Géométriquement, ces produits intérieurs nous permettent de mesurer la longueur et l'angle. La condition peut être considérée comme étant "perpendiculaire" à . La non-dégénérescence signifie que seul le vecteur zéro est perpendiculaire à tout l'espace vectoriel. (Cette généralité signifie que les résultats obtenus ici s'appliqueront au paramètre des moindres carrés généralisés , pour lequel n'est pas nécessairement le produit interne habituel donné comme la somme des produits des composants, mais est une forme non dégénérée arbitraire. Nous pourrions nous passer de tout à fait , définissant g ( u , v ) = 0 u v g W g V X ′ : W → V ∗gV g(u,v)=0 u v gW gV X′:W→V∗ , mais je m'attends à ce que de nombreux lecteurs ne soient pas familiers ou mal à l'aise avec les espaces doubles et choisissent donc d'éviter cette formulation.)
Avec ces produits internes en main, la transposition de toute transformation linéaire est définie par viaX ′ : W → VX:V→W X′:W→V
pour tous et . Qu'il existe réellement un vecteur avec cette propriété peut être établi en écrivant des choses avec des bases pour et ; que ce vecteur est unique résulte de la non-dégénérescence des produits internes. Car si et sont deux vecteurs pour lesquels pour tout , alors (à partir de la linéarité dans la première composante) pour tout impliquant . v ∈ V X ′ ( w ) ∈ V V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v ∈ V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0w∈W v∈V X′(w)∈V V W v1 v2 gV(v1,v)=gV(v2,v) v∈V gV(v1−v2,v)=0 v v1−v2=0
Lorsque écriture pour l'ensemble de tous les vecteurs perpendiculaires à chaque vecteur dans . Toujours en termes de notation, écrivez pour l'image de , définie comme étant l'ensemble . Une relation fondamentale entre et sa transposition estU⊂W, U⊥ U X(V) X {X(v)|v∈V}⊂W X X′
Autrement dit, est dans le noyau de si et seulement si est perpendiculaire à l'image de .w X′ w X Cette affirmation dit deux choses:
Si , alors pour tous les , qui se contentent de signifie que est perpendiculaire à .X′(w)=0 gW(w,X(v))=gV(X′(w),v)=gV(0,v)=0 v∈V w X(V)
Si est perpendiculaire à , cela signifie seulement pour tout , mais cela équivaut à et la non-dégénérescence de implique .w X(V) gW(w,X(v))=0 v∈V gV(X′(w),v)=0 gV X′(w)=0
Nous avons en fait fini maintenant. L'analyse a montré que décompose en produit direct . Autrement dit, nous pouvons prendre n'importe quel arbitraire et l'écrire uniquement comme avec et . Ce que des moyens est de la forme pour au moins un . Remarquez donc queW W=X(V)⊕X(V)⊥ y∈W y=y0+y⊥ y0∈X(V) y⊥∈X(V)⊥ y0 X(β) β∈V
La relation fondamentale dit que c'est la même chose que le côté gauche étant dans le noyau de :X′
d'où résout les équations normalesβ X′Xβ=X′y.
Nous sommes maintenant en mesure de donner une brève réponse géométrique à la question (avec quelques commentaires révélateurs): les équations normales ont une solution parce que tout -vecteur décompose (uniquement) comme la somme d'un vecteur dans l'intervalle de et un autre vecteur perpendiculaire à et est l'image d'au moins une -vector . La dimension de l'image (son rang ) est la dimension des paramètres identifiables . La dimension du noyau den y∈W y0 X y⊥ y0 y0 p β∈V X(V) X compte les relations linéaires non triviales parmi les paramètres. Tous les paramètres sont identifiables lorsque est un-à-un plan de à son image dans .X V W
Il est finalement utile de se passer de l'espace tout à fait et le travail entièrement avec le sous - espace , l ' « espace de colonne » de la matrice . La quantité des équations normales à la projection orthogonale sur . Cela nous libère conceptuellement d'être lié à une paramétrisation particulière du modèle et montre que les modèles des moindres carrés ont une dimension intrinsèque indépendante de la façon dont ils se trouvent être paramétrisés.V U=X(V)⊂W X U
Un résultat intéressant de cette démonstration algébrique abstraite est que nous pouvons résoudre les équations normales dans des espaces vectoriels arbitraires. Le résultat vaut, par exemple, pour les espaces complexes, pour les espaces sur des champs finis (où minimiser une somme de carrés n'a pas de sens), et même sur des espaces de dimension infinie qui prennent en charge des formes séquilinéaires appropriées.
la source
Il est facile de montrer (essayez par vous-même, pour un nombre arbitraire de points, ) que l'inverse de existe s'il y a au moins deux valeurs distinctes (prédicteurs) dans l'échantillon. Seulement si toutes vos données ont les mêmes valeurs (c'est-à-dire des points empilés dans la direction , le long d'une ligne verticale), alors toute ligne tracée à travers leur moyenne aura une pente arbitraire (coefficient de régression) , de sorte que la ligne de régression LSE n'est alors pas unique.n XTX x xi=x y y¯¯¯
la source
Dans une régression typique, X est maigre et donc certainement pas inversible (bien qu'il puisse être laissé inversible.) Il est simple de prouver (demandez si vous avez besoin d'aide) que si X est maigre et laissé inversible alors X ^ T * X est inversible. Dans ce cas, il n'y aura alors qu'une seule solution. Et si X n'a pas le rang de colonne complet, alors X ^ T * X ne sera pas de rang complet, et donc vous aurez un système sous-déterminé.
la source