Question sur une preuve d'équation normale

11

Comment pouvez-vous prouver que les équations normales: ont une ou plusieurs solutions sans supposer que X est inversible?(XTX)β=XTY

Ma seule supposition est que cela a quelque chose à voir avec l'inverse généralisé, mais je suis totalement perdu.

Ryati
la source
1
Vous gagnez des points en posant des questions qui provoquent des réponses étonnantes.
Nikana Reklawyks

Réponses:

14

On est tenté d'être glib et de souligner que parce que la forme quadratique

β(YXβ)(YXβ)

est semi-défini positif, il existe un pour lequel il est minimum et ce minimum est trouvé (en mettant le gradient par rapport à à zéro) avec les équations normalesβββ

XX(YXβ)=0,

d'où il doit y avoir au moins une solution quel que soit le rang deXX . Cependant, cet argument ne semble pas être dans l'esprit de la question, qui semble être une déclaration purement algébrique. Peut-être est-il intéressant de comprendre pourquoi une telle équation doit avoir une solution et dans quelles conditions précisément. Alors recommençons et faisons comme si nous ne connaissions pas le lien avec les moindres carrés.


Tout se résume au sens de , la transposition de . Il s’agira d’une simple définition, d’une notation appropriée et du concept d’une forme sesquilinéaire non dégénérée. Rappelons que est la "matrice de conception" de lignes (une pour chaque observation) et colonnes (une pour chaque variable, y compris une constante le cas échéant). Il représente donc une transformation linéaire de l'espace vectoriel vers . X X n p V = R p W = R nXXXnpV=RpW=Rn

La transposition de , considérée comme une transformation linéaire , est une transformation linéaire des espaces doubles . Pour donner un sens à une composition comme , il est donc nécessaire d'identifier avec . C'est ce que fait le produit interne habituel (somme des carrés) sur .X X X WW WX:WVXXWWW

Il y a en fait deux produits intérieurs et définis sur et respectivement. Ce sont des fonctions symétriques bilinéaires à valeur réelle qui ne sont pas dégénérées . Ce dernier signifie queg W V WgVgWVW

gW(u,v)=0 uWv=0,

avec des déclarations analogues pour . Géométriquement, ces produits intérieurs nous permettent de mesurer la longueur et l'angle. La condition peut être considérée comme étant "perpendiculaire" à . La non-dégénérescence signifie que seul le vecteur zéro est perpendiculaire à tout l'espace vectoriel. (Cette généralité signifie que les résultats obtenus ici s'appliqueront au paramètre des moindres carrés généralisés , pour lequel n'est pas nécessairement le produit interne habituel donné comme la somme des produits des composants, mais est une forme non dégénérée arbitraire. Nous pourrions nous passer de tout à fait , définissant g ( u , v ) = 0 u v g W g V X : WVgVg(u,v)=0uvgWgVX:WV, mais je m'attends à ce que de nombreux lecteurs ne soient pas familiers ou mal à l'aise avec les espaces doubles et choisissent donc d'éviter cette formulation.)

Avec ces produits internes en main, la transposition de toute transformation linéaire est définie par viaX : WVX:VWX:WV

gV(X(w),v)=gW(w,X(v))

pour tous et . Qu'il existe réellement un vecteur avec cette propriété peut être établi en écrivant des choses avec des bases pour et ; que ce vecteur est unique résulte de la non-dégénérescence des produits internes. Car si et sont deux vecteurs pour lesquels pour tout , alors (à partir de la linéarité dans la première composante) pour tout impliquant . v V X ( w ) V V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0wWvVX(w)VVWv1v2gV(v1,v)=gV(v2,v)vVgV(v1v2,v)=0vv1v2=0

Lorsque écriture pour l'ensemble de tous les vecteurs perpendiculaires à chaque vecteur dans . Toujours en termes de notation, écrivez pour l'image de , définie comme étant l'ensemble . Une relation fondamentale entre et sa transposition estUW,UUX(V)X{X(v)|vV}WXX

X(w)=0wX(V).

Autrement dit, est dans le noyau de si et seulement si est perpendiculaire à l'image de . wXwX Cette affirmation dit deux choses:

  1. Si , alors pour tous les , qui se contentent de signifie que est perpendiculaire à .X(w)=0gW(w,X(v))=gV(X(w),v)=gV(0,v)=0vVwX(V)

  2. Si est perpendiculaire à , cela signifie seulement pour tout , mais cela équivaut à et la non-dégénérescence de implique .wX(V)gW(w,X(v))=0vVgV(X(w),v)=0gVX(w)=0

Nous avons en fait fini maintenant. L'analyse a montré que décompose en produit direct . Autrement dit, nous pouvons prendre n'importe quel arbitraire et l'écrire uniquement comme avec et . Ce que des moyens est de la forme pour au moins un . Remarquez donc queWW=X(V)X(V) yWy=y0+yy0X(V)yX(V)y0X(β)βV

yXβ=(y0+y)y0=yX(V)

La relation fondamentale dit que c'est la même chose que le côté gauche étant dans le noyau de :X

X(yXβ)=0,

d'où résout les équations normalesβXXβ=Xy.


Nous sommes maintenant en mesure de donner une brève réponse géométrique à la question (avec quelques commentaires révélateurs): les équations normales ont une solution parce que tout -vecteur décompose (uniquement) comme la somme d'un vecteur dans l'intervalle de et un autre vecteur perpendiculaire à et est l'image d'au moins une -vector . La dimension de l'image (son rang ) est la dimension des paramètres identifiables . La dimension du noyau denyWy0Xyy0y0pβVX(V)Xcompte les relations linéaires non triviales parmi les paramètres. Tous les paramètres sont identifiables lorsque est un-à-un plan de à son image dans .XVW

Il est finalement utile de se passer de l'espace tout à fait et le travail entièrement avec le sous - espace , l ' « espace de colonne » de la matrice . La quantité des équations normales à la projection orthogonale sur . Cela nous libère conceptuellement d'être lié à une paramétrisation particulière du modèle et montre que les modèles des moindres carrés ont une dimension intrinsèque indépendante de la façon dont ils se trouvent être paramétrisés.VU=X(V)WXU


Un résultat intéressant de cette démonstration algébrique abstraite est que nous pouvons résoudre les équations normales dans des espaces vectoriels arbitraires. Le résultat vaut, par exemple, pour les espaces complexes, pour les espaces sur des champs finis (où minimiser une somme de carrés n'a pas de sens), et même sur des espaces de dimension infinie qui prennent en charge des formes séquilinéaires appropriées.

whuber
la source
1
Je n'ai jamais eu le représentant d'accepter cette réponse que beaucoup plus tard. Je suis juste revenu sur ce sujet et je voulais encore vous remercier!
Ryati
J'écrirais cette forme quadratique comme plutôt que comme et utilisez l'autre flèche pour des choses comme
β(YXβ)(YXβ)
β(YXβ)(YXβ),
f:AB.
Michael Hardy
@Michael Il doit y avoir une erreur typographique dans votre commentaire. Pourriez-vous clarifier ce que vous vouliez dire?
whuber
@whuber: Je ne trouve aucune erreur typographique. Le fait est que les deux flèches et ont des significations différentes. ''''
Michael Hardy
@Michael Pardonnez-moi de ne pas voir cette distinction, malgré de nombreuses lectures. Quoi qu'il en soit, pour moi, la première flèche fait référence à une fonction injective tandis que la seconde fait référence à n'importe quelle fonction, mais je soupçonne que ce n'est pas ce que vous voulez. Pourriez-vous expliquer votre notation?
whuber
0

Il est facile de montrer (essayez par vous-même, pour un nombre arbitraire de points, ) que l'inverse de existe s'il y a au moins deux valeurs distinctes (prédicteurs) dans l'échantillon. Seulement si toutes vos données ont les mêmes valeurs (c'est-à-dire des points empilés dans la direction , le long d'une ligne verticale), alors toute ligne tracée à travers leur moyenne aura une pente arbitraire (coefficient de régression) , de sorte que la ligne de régression LSE n'est alors pas unique.nXTXxxi=xyy¯

Lucozade
la source
Pour être complet, pour une régression linéaire simple, tandis que pour une régression linéaire multiple. X = [ 1 x 11x m 1 ; ; 1 x 1 nx m n ]X=[1 x1;1 x2;;1 xn]X=[1 x11xm1;;1 x1nxmn]
Lucozade
3
La référence à la régression multiple dans le commentaire est déroutante, car cette réponse ne s'applique clairement qu'au cas de la régression ordinaire où l'on ajuste une "ligne" plutôt qu'une surface de dimension supérieure. De plus, vous semblez avoir répondu à une autre question: celle-ci ne pose que des questions sur le cas où n'est pas inversible. XX
whuber
0

Dans une régression typique, X est maigre et donc certainement pas inversible (bien qu'il puisse être laissé inversible.) Il est simple de prouver (demandez si vous avez besoin d'aide) que si X est maigre et laissé inversible alors X ^ T * X est inversible. Dans ce cas, il n'y aura alors qu'une seule solution. Et si X n'a ​​pas le rang de colonne complet, alors X ^ T * X ne sera pas de rang complet, et donc vous aurez un système sous-déterminé.

user542833
la source
1
Ces remarques ne semblent pas répondre à la question: quel que soit le rang de , il y aura encore exister une solution. À titre d'exemple, considérons le cas extrême où est une matrice de tous les zéros. Ensuite, les équations normales se réduisent à et tout est une solution. X 0 β = 0 βXXX0β=0 β
whuber
whuber: bien sûr, ils répondent à la question: une solution si X est un rang de colonne complet (comme je l'ai mentionné), et des solutions infinies s'il s'agit d'un système sous
déterminé
1
Le fait que le système soit "sous-déterminé" n'implique pas qu'il ait la moindre solution. La question porte sur l'existence de solutions.
whuber