L'ordre des variables explicatives importe-t-il lors du calcul de leurs coefficients de régression?

24

Au début, je pensais que l'ordre n'avait pas d'importance, mais j'ai ensuite lu au sujet du processus d'orthogonalisation gram-schmidt pour calculer les coefficients de régression multiple, et maintenant j'ai des doutes.

Selon le processus gram-schmidt, plus une variable explicative est indexée tardivement parmi les autres variables, plus son vecteur résiduel est petit car les vecteurs résiduels des variables précédentes lui sont soustraits. Par conséquent, le coefficient de régression de la variable explicative est également plus petit.

Si cela est vrai, le vecteur résiduel de la variable en question serait plus grand si elle était indexée plus tôt, car moins de vecteurs résiduels en seraient soustraits. Cela signifie que le coefficient de régression serait également plus élevé.

Ok, donc on m'a demandé de clarifier ma question. J'ai donc posté des captures d'écran du texte qui m'ont confus en premier lieu. Ok, c'est parti.

Je crois comprendre qu'il existe au moins deux options pour calculer les coefficients de régression. La première option est notée (3.6) dans la capture d'écran ci-dessous.

La première façon

Voici la deuxième option (j'ai dû utiliser plusieurs captures d'écran).

La deuxième voie

entrez la description de l'image ici entrez la description de l'image ici

À moins que je ne lise quelque chose (ce qui est certainement possible), il semble que l'ordre compte dans la deuxième option. Est-ce important dans la première option? Pourquoi ou pourquoi pas? Ou mon cadre de référence est-il tellement foiré que ce n'est même pas une question valable? En outre, est-ce que tout cela est en quelque sorte lié à la somme des carrés de type I par rapport à la somme des carrés de type II?

Merci d'avance, je suis tellement confus!

Ryan Zotti
la source
1
Pourriez-vous décrire la procédure exacte de calcul des coefficients? D'après ce que je sais de l'ortogonalisation de gram-schmidt et de la façon dont il peut être appliqué au problème de régression, je peux présumer qu'en utilisant la procédure gs, vous pouvez obtenir un ajustement de la régression, mais pas les coefficients d'origine. Notez que l'ajustement de régression est la projection vers l'espace des colonnes. Si vous orthogonalisez les colonnes, vous obtenez la base orthogonale de l'espace couvrant les colonnes, donc l'ajustement sera une combinaison linéaire de cette base, et également une combinaison linéaire des colonnes d'origine. Ce sera la même chose ...
mpiktas
mais les coefficients seront différents. C'est parfaitement normal.
mpiktas
Je suppose que je suis confus parce que je pensais avoir lu dans "The Elements of Statistical Learning" que les coefficients calculés en utilisant le processus gram-schmidt seraient les mêmes que ceux calculés en utilisant le processus traditionnel: B = (X'X) ^ - 1 X'y.
Ryan Zotti
Voici l'extrait du livre qui parle de la procédure: "Nous pouvons voir l'estimation [des coefficients] comme le résultat de deux applications de la régression simple. Les étapes sont les suivantes: 1. régresser x sur 1 pour produire le z résiduel = x - x ̄1; 2. régresser y sur le z résiduel pour donner le coefficient βˆ1. Cette recette se généralise au cas de p entrées, comme le montre l'algorithme 3.1. Notez que les entrées z0, ..., zj − 1 à l'étape 2 sont orthogonaux, d'où les coefficients de régression simples calculés il y a en fait aussi les coefficients de régression multiple. "
Ryan Zotti
Cela devient un peu compliqué lorsque je copie et colle dans la section des commentaires ici, il est donc probablement préférable de regarder directement la source. Il s'agit des pages 53 à 54 de «The Elements of Statistical Learning», qui peuvent être téléchargées gratuitement sur le site Web de Stanford: www-stat.stanford.edu/~tibs/ElemStatLearn .
Ryan Zotti

Réponses:

22

Je crois que la confusion peut provenir de quelque chose d'un peu plus simple, mais cela offre une belle occasion d'examiner certaines questions connexes.

Notez que le texte ne prétend pas que tous les coefficients de régression peut être calculé via les vecteurs résiduels successifs comme mais plutôt que seul le dernier , , peut être calculé de cette façon! β i ? =Y,ziβ^iΒ p

β^i=?y,zizi2,
β^p

Le schéma d'orthogonalisation successif (une forme d'orthogonalisation de Gram – Schmidt) produit (presque) une paire de matrices et tel que où est avec des colonnes orthonormées et est triangulaire supérieur. Je dis "presque" puisque l'algorithme ne spécifie que jusqu'aux normes des colonnes, qui ne seront généralement pas une, mais peut être faite pour avoir une norme d'unité en normalisant les colonnes et en faisant un simple ajustement correspondant à la coordonnée matrice .G X = Z GZGZ n × p G = ( g i j ) p × p Z G

X=ZG,
Zn×pG=(gij)p×pZG

En supposant, bien sûr, que a le rang , la solution unique des moindres carrés est le vecteur qui résout le système XRn×pβ X T X β = X T ypnβ^

XTXβ^=XTy.

En substituant et en utilisant (par construction), on obtient ce qui équivaut à Z T Z = I G T G β = G T Z T yX=ZGZTZ=IG β = Z T y

GTGβ^=GTZTy,
Gβ^=ZTy.

Maintenant, concentrez-vous sur la dernière ligne du système linéaire. Le seul élément non nul de dans la dernière ligne est . Donc, nous obtenons cela Il n'est pas difficile de voir (vérifier cela comme une vérification de la compréhension!) Queet donc cela donne la solution. ( Caveat lector : J'ai utilisé déjà normalisé pour avoir la norme d'unité, alors que dans le livre ils ne l' ont pas . Cela explique le fait que le livre a une norme au carré dans le dénominateur, alors que je n'ai que la norme.)g p p g p p β p = y , z pGgppg p p = z pz i

gppβ^p=y,zp.
gpp=zpzi

Pour trouver tous les coefficients de régression, il faut faire une simple étape de substitution pour résoudre pour l'individu . Par exemple, pour la ligne , et ainsi On peut continuer cette procédure en travaillant "en arrière" de la dernière ligne du système jusqu'à la première, en soustrayant les sommes pondérées des coefficients de régression déjà calculés puis en les divisant par le terme principal pour obtenir .β^i(p1)

gp1,p1β^p1+gp1,pβ^p=zp1,y,
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

Le point dans la section en ESL est que nous pourrions réorganiser les colonnes de pour obtenir une nouvelle matrice avec la e colonne d'origine étant maintenant la dernière. Si nous appliquons ensuite la procédure de Gram – Schmidt sur la nouvelle matrice, nous obtenons une nouvelle orthogonalisation telle que la solution du coefficient d'origine est trouvée par la solution simple ci-dessus. Cela nous donne une interprétation du coefficient de régression . Il s'agit d'une régression univariée de sur le vecteur résiduel obtenu en "régressant" les colonnes restantes de la matrice de conception à partir de .XX(r)rβ^rβ^ryxr

Décompositions QR générales

La procédure de Gram-Schmidt est qu'un procédé de production d' une décomposition QR de . En effet, il existe de nombreuses raisons de préférer d'autres approches algorithmiques à la procédure de Gram – Schmidt.X

Les réflexions des ménages et les rotations de Givens fournissent des approches plus stables numériquement à ce problème. Notez que le développement ci-dessus ne change pas dans le cas général de la décomposition QR. A savoir, que soit toute décomposition QR de . Ensuite, en utilisant exactement le même raisonnement et les mêmes manipulations algébriques que ci-dessus, nous avons que la solution des moindres carrés satisfait ce qui simplifie en Puisque est triangulaire supérieur, alors la même technique de rétro-substitution fonctionne. Nous résolvons d'abord pour

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^ppuis remontez de bas en haut. Le choix pour lequel l' algorithme QR décomposition à utiliser généralement des charnières sur le contrôle de l' instabilité numérique et, dans cette perspective, Gram-Schmidt est généralement pas une approche concurrentielle.

Cette notion de décomposition de en une matrice orthogonale fois quelque chose d'autre peut également être généralisée un peu plus loin pour obtenir une forme très générale pour le vecteur ajusté , mais je crains que cette réponse soit déjà devenue trop longue .Xy^

cardinal
la source
6

J'ai parcouru le livre et il semble que l'exercice 3.4 pourrait être utile pour comprendre le concept d'utilisation de GS pour trouver tous les coefficients de régression (pas seulement le coefficient final - j'ai donc tapé une solution. J'espère que c'est utile.βjβp

Exercice 3.4 en ESL

Montrer comment le vecteur des coefficients des moindres carrés peut être obtenu à partir d'un seul passage de la procédure de Gram-Schmidt. Représentez votre solution en termes de la décomposition QR de . X

Solution

Rappelons qu'en un seul passage de la procédure de Gram-Schmidt, nous pouvons écrire notre matrice sous la forme où contient les colonnes orthogonales , et est une matrice diagonale supérieure avec celles sur la diagonale, et . Ceci reflète le fait que, par définition,X

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

Maintenant, par la décomposition , nous pouvons écrire , où est une matrice orthogonale et est une matrice triangulaire supérieure. Nous avons et , où est une matrice diagonale avec. QRX=QRQRQ=ZD1R=DΓDDjj=zj

Maintenant, par définition de , nous avons Maintenant, en utilisant la décomposition , nous avonsβ^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R est triangulaire supérieur, nous pouvons écrire conformément à nos résultats précédents. Maintenant, par substitution , nous pouvons obtenir la séquence des coefficients de régression . Par exemple, pour calculer , nous avons

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
puis résoudre pour . Ce processus peut être répété pour tous les , obtenant ainsi les coefficients de régression en un seul passage de la procédure de Gram-Schmidt.β^p1βj
Andrew Tulloch
la source
3

Pourquoi ne pas l'essayer et comparer? Ajustez un ensemble de coefficients de régression, puis changez l'ordre et ajustez-les à nouveau et voyez s'ils diffèrent (autre qu'une erreur d'arrondi possible).

Comme le souligne @mpiktas, ce que vous faites n'est pas vraiment clair.

Je peux voir en utilisant GS pour résoudre dans l'équation des moindres carrés . Mais alors vous feriez le GS sur la matrice , pas les données originales. Dans ce cas, les coefficients doivent être les mêmes (à part une possible erreur d'arrondi).B(XX)B=(Xy)(XX)

Une autre approche de GS en régression consiste à appliquer GS aux variables prédictives pour éliminer la colinéarité entre elles. Ensuite, les variables orthogonalisées sont utilisées comme prédicteurs. Dans ce cas, l'ordre est important et les coefficients seront différents car l'interprétation des coefficients dépend de l'ordre. Considérez 2 prédicteurs et et faites des GS sur eux dans cet ordre, puis utilisez-les comme prédicteurs. Dans ce cas, le premier coefficient (après l'ordonnée à l'origine) montre l'effet de sur par lui-même et le deuxième coefficient est l'effet de sur après ajustement pourX1X2X1yX2yX1. Maintenant, si vous inversez l'ordre des x, le premier coefficient montre l'effet de sur par lui-même (ignorant plutôt que de l'ajuster) et le second est l'effet de s'ajustant pour .X2yX1X1X2

Greg Snow
la source
Je pense que votre dernier paragraphe est probablement plus proche de la source de ma confusion - GS fait faire la matière de commande. C'est ce que je pensais. Je suis encore un peu confus, car le livre que je lis, intitulé: "The Elements of Statistical Learning" (une publication de Stanford disponible gratuitement: www-stat.stanford.edu/~tibs/ElemStatLearn ) semble suggèrent que GS est équivalent à l'approche standard pour le calcul des coefficients; c'est-à-dire, B = (X'X) ^ - 1 X'y.
Ryan Zotti
Et une partie de ce que vous dites me déroute un peu aussi: "Je peux voir en utilisant GS pour résoudre B dans l'équation des moindres carrés (x′x) ^ - 1 B = (x′y). Mais alors vous feriez le GS sur la matrice (x′x), pas les données d'origine. " Je pensais que la matrice x'x contenait les données originales? ... C'est du moins ce que dit Elements of Statistical Learning. Il dit que le x dans le x'x est une matrice N par p où N est le nombre d'entrées (observations) et p est le nombre de dimensions.
Ryan Zotti
Si GS n'est pas la procédure standard pour calculer les coefficients, comment la colinéarité est-elle généralement traitée? Comment la redondance (colinéarité) est-elle généralement répartie entre les x? La colinéarité ne rend-elle pas traditionnellement les coefficients instables? Cela ne suggère-t-il pas alors que le processus GS est le processus standard? Parce que le processus GS rend également les coefficients instables - un vecteur résiduel plus petit rend le coefficient instable.
Ryan Zotti
C'est du moins ce que dit le texte: "Si xp est fortement corrélé avec certains des autres xk, le vecteur résiduel zp sera proche de zéro, et à partir de (3.28) le coefficient βˆp sera très instable."
Ryan Zotti
2
Notez que GS est une forme de décomposition QR.
cardinal du