Dans le cas de régression linéaire simple , vous pouvez dériver l'estimateur des moindres carrés sorte que vous n'avez pas besoin de connaître pour estimer
Supposons que j'ai , comment puis-je dériver sans estimer ? ou n'est-ce pas possible?
Dans le cas de régression linéaire simple , vous pouvez dériver l'estimateur des moindres carrés sorte que vous n'avez pas besoin de connaître pour estimer
Supposons que j'ai , comment puis-je dériver sans estimer ? ou n'est-ce pas possible?
Réponses:
La dérivation en notation matricielle
À partir de , qui est vraiment le même quey=Xb+ϵ
tout se résume à minimiser :e′e
Donc, minimiser nous donne:e′e′
Une dernière chose mathématique, la condition de second ordre pour un minimum requiert que la matrice soit définie positive. Cette exigence est remplie dans le cas où a un rang complet.X′X X
La dérivation plus précise qui passe par toutes les étapes dans un plus grand département peut être trouvée sous http://economictheoryblog.com/2015/02/19/ols_estimator/
la source
*
être un+
? De plus, ne devrait-il pas être au lieu de pour obtenir les dimensions correspondantes? b NIl est possible d'estimer un seul coefficient dans une régression multiple sans estimer les autres.
L'estimation de est obtenue en supprimant les effets de des autres variables puis en régressant les résidus de contre les résidus de . Ceci est expliqué et illustré Comment contrôle-t-on exactement les autres variables? et Comment normaliser (a) le coefficient de régression? . La beauté de cette approche est qu'elle ne nécessite aucun calcul, aucune algèbre linéaire, peut être visualisée en utilisant uniquement une géométrie bidimensionnelle, est numériquement stable et exploite une seule idée fondamentale de la régression multiple: celle de supprimer (ou de "contrôler pour" ) les effets d'une seule variable.x 2 y x 1β1 x2 y x1
Dans le cas présent, la régression multiple peut être effectuée en utilisant trois étapes de régression ordinaires:
Régression sur (sans terme constant!). Soit l'ajustement . L'estimation est Par conséquent, les résidus sont Géométriquement, est ce qui reste de après sa soustraction sur .x 2 y = α y , 2 x 2 + δ α y , 2 = ∑ i y i x 2 iy x2 y=αy,2x2+δ δ=y-αy,2x2. δyx2
Régression sur (sans terme constant). Soit l'ajustement . L'estimation estLes résidus sontGéométriquement, est ce qui reste de après sa soustraction sur .x 2 x 1 = α 1 , 2 x 2 + γ α 1 , 2 = ∑ i x 1 i x 2 ix1 x2 x1=α1,2x2+γ γ=x1-α1,2x2.
Régression on (sans terme constant). L'estimation estL'ajustement sera . Géométriquement, est la composante de (qui représente avec retiré) dans la direction (qui représente avec retiré).δ γ
Notez que n'a pas été estimé.β2 Il peut facilement être récupéré à partir de ce qui a été obtenu jusqu'à présent (tout comme dans le cas de régression ordinaire est facilement obtenu à partir de l'estimation de pente ). Les sont les résidus de la régression bivariée de sur et .β^0 β^1 ε y x1 x2
Le parallèle avec la régression ordinaire est fort: les étapes (1) et (2) sont des analogues de soustraction des moyennes dans la formule habituelle. Si vous laissez être un vecteur de uns, vous retrouverez en fait la formule habituelle.x2
Cela se généralise de façon évidente pour régresser avec plus de deux variables: pour estimer , régresser et séparément par rapport à toutes les autres variables, puis régresser leurs résidus les uns par rapport aux autres. À ce stade, aucun des autres coefficients de la régression multiple de n'a encore été estimé.β^1 y x1 y
la source
L'estimation des moindres carrés ordinaires de est une fonction linéaire de la variable de réponseβ . En termes simples, l'estimation OLS des coefficients, les , peut être écrite en utilisant uniquement la variable dépendante ( ) et les variables indépendantes ( ).β Yi Xki
Pour expliquer ce fait pour un modèle de régression général, vous devez comprendre une petite algèbre linéaire. Supposons que vous estimer les coefficients dans un modèle de régression multiple,(β0,β1,...,βk)
où pour . La matrice de conception est une matrice où chaque colonne contient les observations de la variable dépendante . Vous pouvez trouver de nombreuses explications et dérivations ici de la formule utilisée pour calculer les coefficients estimés , qui estϵi∼iidN(0,σ2) i=1,...,n X n×k n kth Xk β^=(β^0,β^1,...,β^k)
en supposant que l'inverse existe. Les coefficients estimés sont des fonctions des données et non des autres coefficients estimés.(X′X)−1
la source
Une petite note mineure sur la théorie vs la pratique. Mathématiquement peut être estimé avec la formule suivante:β0,β1,β2...βn
où est les données d'entrée d'origine et est la variable que nous voulons estimer. Cela découle de la minimisation de l'erreur. Je vais le prouver avant de faire un petit point pratique.X Y
Soit l'erreur que fait la régression linéaire au point . Ensuite:ei i
L'erreur quadratique totale que nous commettons est maintenant:
Parce que nous avons un modèle linéaire, nous savons que:
Qui peut être réécrit en notation matricielle comme:
Nous savons que
Nous voulons minimiser l'erreur carrée totale, de sorte que l'expression suivante soit aussi petite que possible
Cela équivaut à:
La réécriture peut sembler déroutante mais elle découle de l'algèbre linéaire. Notez que les matrices se comportent de façon similaire aux variables lorsque nous les multiplions à certains égards.
Nous voulons trouver les valeurs de telles que cette expression soit aussi petite que possible. Nous devrons différencier et définir la dérivée égale à zéro. Nous utilisons ici la règle de la chaîne.β
Cela donne:
Tels que finalement:
Donc, mathématiquement, nous semblons avoir trouvé une solution. Il y a un problème cependant, c'est que est très difficile à calculer si la matrice est très très grande. Cela pourrait entraîner des problèmes de précision numérique. Une autre façon de trouver les valeurs optimales pour dans cette situation est d'utiliser une méthode de type descente en gradient. La fonction que nous voulons optimiser est illimitée et convexe donc nous utiliserions également une méthode de gradient en pratique si besoin est.(X′X)−1 X β
la source
Une dérivation simple peut être faite simplement en utilisant l'interprétation géométrique de LR.
La régression linéaire peut être interprétée comme la projection de sur l'espace de colonne . Ainsi, l'erreur, est orthogonale à l'espace des colonnes de .Y X ϵ^ X
Par conséquent, le produit interne entre et l'erreur doit être 0, c'est-à-direX′
Ce qui implique que,
Maintenant, la même chose peut être faite par:
(1) Projection de sur (erreur ), ,Y X2 δ=Y−X2D^ D^=(X′2X2)−1X′2y
(2) Projection de sur (erreur ), ,X1 X2 γ=X1−X2G^ G^=(X′1X1)−1X1X2
et enfin,
(3) Projection de sur ,δ γ β^1
la source