La régression du moindre angle maintient les corrélations monotones décroissantes et liées?

9

J'essaie de résoudre un problème de régression au moindre angle (LAR). Il s'agit d'un problème 3.23 à la page 97 de Hastie et al., Elements of Statistical Learning, 2nd. ed. (5ème impression) .

Considérons un problème de régression avec toutes les variables et réponses ayant un zéro moyen et un écart-type un. Supposons également que chaque variable ait une corrélation absolue identique avec la réponse:

1N|xj,y|=λ,j=1,...,p

Soit le coefficient des moindres carrés de sur et soit pour . yXu(α)=αX β α[0,1]β^yXu(α)=αXβ^α[0,1]

On me demande de montrer que et j'ai des problèmes avec ça. Notez que cela peut en gros dire que les corrélations de chaque avec les résidus restent de même ampleur à mesure que nous progressons vers .xju

1N|xj,yu(α)|=(1α)λ,j=1,...,p
xju

Je ne sais pas non plus comment montrer que les corrélations sont égales à:

λ(α)=(1α)(1α)2+α(2α)NRSSλ

Tous les pointeurs seraient grandement appréciés!

Belmont
la source
2
@Belmont, qu'est-ce que ? Pourriez-vous fournir plus de contexte sur votre problème? Un lien vers un article avec les propriétés standard de LAR, par exemple, aiderait beaucoup. u(α)
mpiktas
@Belmont, Cela ressemble à un problème de Hastie, et al., Elements of Statistical Learning , 2nd. ed. Est-ce des devoirs? Si c'est le cas, vous pouvez ajouter cette balise.
Cardinal
@Belmont, maintenant que @cardinal a donné une réponse complète, pouvez-vous spécifier ce qu'est vraiment le LAR, pour référence future? À en juger par la réponse, il s'agit d'une manipulation standard des produits de régression des moindres carrés, compte tenu de certaines contraintes initiales. Il ne devrait pas y avoir de nom spécial sans raison sérieuse.
mpiktas
1
@mpiktas, c'est un algorithme par étapes, donc chaque fois qu'une variable entre ou quitte le modèle sur le chemin de régularisation, la taille (c.-à-d. cardinalité / dimension) de augmente ou diminue respectivement et une "nouvelle" estimation LS est utilisée en fonction de les variables actuellement "actives". Dans le cas du lasso, qui est un problème d'optimisation convexe, la procédure consiste essentiellement à exploiter une structure spéciale dans les conditions KKT pour obtenir une solution très efficace. Il y a aussi des généralisations, par exemple, la régression logistique basée sur IRLS et Heine-Borel (pour prouver la convergence en nombre fini d'étapes.)β
Cardinal
1
@Belmont -1, comme j'ai récemment acheté le livre de Hastie, je peux confirmer que c'est un exercice. Je vous donne donc un gros -1, puisque vous n'arrivez même pas à donner toutes les définitions, je ne parle même pas de donner la référence.
mpiktas

Réponses:

21

Il s'agit du problème 3.23 à la page 97 de Hastie et al., Elements of Statistical Learning , 2nd. ed. (5ème impression) .

La clé de ce problème est une bonne compréhension des moindres carrés ordinaires (c.-à-d. La régression linéaire), en particulier l'orthogonalité des valeurs ajustées et des résidus.

Lemme d'orthogonalité : Soit la matrice de conception , le vecteur de réponse et les (vrais) paramètres. En supposant que est de rang complet (ce que nous ferons tout au long), les estimations OLS de sont . Les valeurs ajustées sont . Alors . C'est-à-dire que les valeurs ajustées sont orthogonales aux résidus. Cela suit puisque .n × p y β X β β = ( X T X ) - 1 X T y y = X ( X T X ) - 1 X T y y , y - y y ) = X T y -Xn×pyβXββ^=(XTX)1XTyy^=X(XTX)1XTyX T ( y -y^,yy^=y^T(yy^)=0XT(yy^)=XTyXTX(XTX)1XTy=XTyXTy=0

Maintenant, nous être un vecteur de colonne telle que est la ème colonne de . Les conditions supposées sont:x j j XxjxjjX

  • j11Nxj,xj=1 pour chaque , ,j1Ny,y=1
  • 1pp1Nxj,1p=1Ny,1p=0 où désigne un vecteur de ceux de longueur , et1pp
  • j1N|xj,y|=λ pour tout .j

Notez qu'en particulier , la dernière déclaration du lemme d'orthogonalité est identique à pour tout .jxj,yy^=0j


Les corrélations sont liées

Maintenant, . Donc, et le deuxième terme à droite est zéro par le lemme d'orthogonalité , donc comme vous le souhaitez. La valeur absolue des corrélations est juste x j , y - u ( a ) = x j , ( 1 - α ) y + α y - αu(α)=αXβ^=αy^1

xj,yu(a)=xj,(1α)y+αyαy^=(1α)xj,y+αxj,yy^,
ρ j(α)= 1
1N|xj,yu(α)|=(1α)λ,
ρ^j(α)=1N|xj,yu(α)|1Nxj,xj1Nyu(α),yu(α)=(1α)λ1Nyu(α),yu(α)

Remarque : Le côté droit ci-dessus est indépendant de et le numérateur est exactement le même que la covariance puisque nous avons supposé que tous les et sont centrés (donc, en particulier, aucune soustraction de la moyenne n'est nécessaire ).x j yjxjy

À quoi ça sert? À mesure que augmente, le vecteur de réponse est modifié de sorte qu'il se rapproche de celui de la solution des moindres carrés ( restreinte! ) Obtenue en incorporant uniquement les premiers paramètres dans le modèle. Cela modifie simultanément les paramètres estimés car ils sont de simples produits internes des prédicteurs avec le vecteur de réponse (modifié). La modification prend cependant une forme spéciale. Il conserve la (magnitude de) les corrélations entre les prédicteurs et la réponse modifiée tout au long du processus (même si la valeur de la corrélation change). Pensez à ce que cela fait géométriquement et vous comprendrez le nom de la procédure!pαp


Forme explicite de la corrélation (absolue)

Concentrons-nous sur le terme au dénominateur, car le numérateur est déjà sous la forme requise. Nous avons

yu(α),yu(α)=(1α)y+αyu(α),(1α)y+αyu(α).

En substituant à et en utilisant la linéarité du produit intérieur, on obtientu(α)=αy^

yu(α),yu(α)=(1α)2y,y+2α(1α)y,yy^+α2yy^,yy^.

Observe ceci

  • y,y=N par hypothèse,
  • y,yy^=yy^,yy^+y^,yy^=yy^,yy^ , en appliquant (encore une fois) le lemme d'orthogonalité au deuxième terme du milieu; et,
  • yy^,yy^=RSS par définition.

En mettant tout cela ensemble, vous remarquerez que nous obtenons

ρ^j(α)=(1α)λ(1α)2+α(2α)NRSS=(1α)λ(1α)2(1RSSN)+1NRSS

Pour conclure, et il est donc clair que diminue de façon monotone dans et as . ρ j(α)α ρ j(α)0αune1RSSN=1N(y,y,yy^,yy^)0ρ^j(α)αρ^j(α)0α1


Épilogue : Concentrez-vous sur les idées ici. Il n'y en a vraiment qu'un. Le lemme d'orthogonalité fait presque tout le travail pour nous. Le reste n'est que l'algèbre, la notation et la possibilité de mettre ces deux derniers au travail.

cardinal
la source
2
@cardinal, +1. La réponse est meilleure que la question.
mpiktas
@cardinal, vous voudrez peut-être changer le lien vers amazon ou un autre site. Je pense que le lien vers le livre complet pourrait soulever des problèmes de droit d'auteur.
mpiktas
3
@mpiktas, non. Aucun problème de copyright. C'est le site officiel du livre. Les auteurs ont obtenu la permission de Springer pour rendre le PDF librement accessible en ligne. (Voir la note à cet effet sur le site.) Je pense qu'ils ont eu l'idée de Stephen Boyd et de son texte d' optimisation convexe . Espérons qu'une telle tendance prendra de l'ampleur au cours des prochaines années. Prendre plaisir!
cardinal
@cardinal, ooh merci beaucoup! C'est très généreux de la part des auteurs.
mpiktas
@mpiktas, c'est de loin le livre le plus populaire de la série Springer en statistiques. Il a l'air bien sur un iPad. Ce qui me rappelle --- je devrais également y télécharger le texte de Boyd. À votre santé.
Cardinal