J'essaie de comprendre la notation matricielle et je travaille avec des vecteurs et des matrices.
Pour l'instant, j'aimerais comprendre comment est calculé le vecteur d'estimation des coefficients en régression multiple.
L'équation de base semble être
Maintenant, comment pourrais-je résoudre un vecteur ici?
Edit : Attendez, je suis coincé. Je suis ici maintenant et je ne sais pas comment continuer:
Avec pour tout étant l'ordonnée à l'origine:
Pouvez-vous me diriger dans la bonne direction?
regression
Alexander Engelhardt
la source
la source
smallmatrix
, donc n'a pas essayé de modifier, car la solution habituelle de casser la formule en plusieurs lignes n'aurait pas fonctionné ici.Réponses:
On a
Cela peut être montré en écrivant l'équation explicitement avec des composants. Par exemple, écrivez au lieu de . Prenez ensuite des dérivées par rapport à , , ..., et empilez tout pour obtenir la réponse. Pour une illustration rapide et facile, vous pouvez commencer avec .(β1,…,βp)′ β β1 β2 βp p=2
Avec l'expérience, on développe des règles générales, dont certaines sont données, par exemple, dans ce document .
Modifier pour guider la partie ajoutée de la question
Avec , nous avonsp=2
La dérivée par rapport à estβ1
De même, la dérivée par rapport à estβ2
Par conséquent, la dérivée par rapport à estβ= (β1,β2)′
Maintenant, notez que vous pouvez réécrire la dernière expression sous la forme
Bien sûr, tout se fait de la même manière pour un plus grand .p
la source
Vous pouvez également utiliser des formules du livre de recettes Matrix . On a
Prenez maintenant des dérivés de chaque terme. Vous voudrez peut-être remarquer que . La dérivée du terme par rapport à est zéro. Le terme restantβ′X′y=y′Xβ y′y β
est de forme de fonction
dans la formule (88) dans le livre de la page 11, avec , et . Le dérivé est donné dans la formule (89):x = β A =X′X b = - 2X′y
donc
Maintenant que on obtient la solution souhaitée:(X′X)′=X′X
la source
Voici une technique pour minimiser la somme des carrés en régression qui a en fait des applications à des paramètres plus généraux et que je trouve utile.
Essayons d'éviter complètement le calcul matriciel vectoriel.
Supposons que nous souhaitons minimiser où , et . Pour simplifier, nous supposons que et .
Pour tout , nous obtenonsβ^∈Rp
Si nous pouvons choisir (trouver!) Un vecteur tel que le dernier terme à droite soit nul pour chaque , alors nous aurions terminé, car cela impliquerait que .β^ β minβE≥ ∥ y - Xβ^∥22
Mais, pour tous si et seulement si et cette dernière équation est vraie si et seulement si . Donc est minimisé en prenant .( β-β^)TXT( y - Xβ^) = 0 β XT( y - Xβ^) = 0 XTXβ^=XTy E β^= (XTX)- 1XTy
Bien que cela puisse sembler un "truc" pour éviter le calcul, il a en fait une application plus large et il y a une géométrie intéressante en jeu.
Un exemple où cette technique rend une dérivation beaucoup plus simple que toute approche de calcul matriciel-vectoriel est lorsque nous généralisons au cas de la matrice. Soit , et . Supposons que nous souhaitons minimiser sur toute la matrice de paramètres . Ici est une matrice de covariance.Y ∈Rn × p X ∈Rn × q B ∈Rq× p
Une approche entièrement analogue à ce qui précède établit rapidement que le minimum de est atteint en prenant Autrement dit, dans un cadre de régression où la réponse est un vecteur avec covariance et les observations sont indépendantes, alors l'estimation OLS est atteinte en effectuant régressions linéaires distinctes sur les composantes de la réponse.E
la source
Une façon qui peut vous aider à comprendre est de ne pas utiliser l'algèbre matricielle, de différencier à chaque égard pour chaque composant, puis de "stocker" les résultats dans un vecteur de colonne. Donc nous avons:
Vous avez maintenant de ces équations, une pour chaque bêta. Il s'agit d'une application simple de la règle de chaîne:p
Maintenant, nous pouvons réécrire la somme à l'intérieur du support sous la forme Vous obtenez donc:∑pj = 1Xje jβj=XTjeβ
Nous avons maintenant de ces équations, et nous les "empilerons" dans un vecteur colonne. Remarquez comment est le seul terme qui dépend de , donc nous pouvons l'empiler dans le vecteur et nous obtenons:p Xje k k Xje
Maintenant, nous pouvons prendre la bêta en dehors de la somme (mais nous devons rester sur RHS de la somme), puis prendre l'inverse:
la source