J'essaie de résoudre un problème de régression au moindre angle (LAR). Il s'agit d'un problème 3.23 à la page 97 de Hastie et al., Elements of Statistical Learning, 2nd. ed. (5ème impression) .
Considérons un problème de régression avec toutes les variables et réponses ayant un zéro moyen et un écart-type un. Supposons également que chaque variable ait une corrélation absolue identique avec la réponse:
Soit le coefficient des moindres carrés de sur et soit pour . yXu(α)=αX β α∈[0,1]
On me demande de montrer que et j'ai des problèmes avec ça. Notez que cela peut en gros dire que les corrélations de chaque avec les résidus restent de même ampleur à mesure que nous progressons vers .xju
Je ne sais pas non plus comment montrer que les corrélations sont égales à:
Tous les pointeurs seraient grandement appréciés!
Réponses:
Il s'agit du problème 3.23 à la page 97 de Hastie et al., Elements of Statistical Learning , 2nd. ed. (5ème impression) .
La clé de ce problème est une bonne compréhension des moindres carrés ordinaires (c.-à-d. La régression linéaire), en particulier l'orthogonalité des valeurs ajustées et des résidus.
Lemme d'orthogonalité : Soit la matrice de conception , le vecteur de réponse et les (vrais) paramètres. En supposant que est de rang complet (ce que nous ferons tout au long), les estimations OLS de sont . Les valeurs ajustées sont . Alors . C'est-à-dire que les valeurs ajustées sont orthogonales aux résidus. Cela suit puisque .n × p y β X β β = ( X T X ) - 1 X T y y = X ( X T X ) - 1 X T y ⟨ y , y - y y ) = X T y -X n×p y β X β β^=(XTX)−1XTy y^=X(XTX)−1XTy X T ( y -⟨y^,y−y^⟩=y^T(y−y^)=0 XT(y−y^)=XTy−XTX(XTX)−1XTy=XTy−XTy=0
Maintenant, nous être un vecteur de colonne telle que est la ème colonne de . Les conditions supposées sont:x j j Xxj xj j X
Notez qu'en particulier , la dernière déclaration du lemme d'orthogonalité est identique à pour tout .j⟨xj,y−y^⟩=0 j
Les corrélations sont liées
Maintenant, . Donc, et le deuxième terme à droite est zéro par le lemme d'orthogonalité , donc comme vous le souhaitez. La valeur absolue des corrélations est juste ⟨ x j , y - u ( a ) ⟩ = ⟨ x j , ( 1 - α ) y + α y - αu(α)=αXβ^=αy^ 1
Remarque : Le côté droit ci-dessus est indépendant de et le numérateur est exactement le même que la covariance puisque nous avons supposé que tous les et sont centrés (donc, en particulier, aucune soustraction de la moyenne n'est nécessaire ).x j yj xj y
À quoi ça sert? À mesure que augmente, le vecteur de réponse est modifié de sorte qu'il se rapproche de celui de la solution des moindres carrés ( restreinte! ) Obtenue en incorporant uniquement les premiers paramètres dans le modèle. Cela modifie simultanément les paramètres estimés car ils sont de simples produits internes des prédicteurs avec le vecteur de réponse (modifié). La modification prend cependant une forme spéciale. Il conserve la (magnitude de) les corrélations entre les prédicteurs et la réponse modifiée tout au long du processus (même si la valeur de la corrélation change). Pensez à ce que cela fait géométriquement et vous comprendrez le nom de la procédure!pα p
Forme explicite de la corrélation (absolue)
Concentrons-nous sur le terme au dénominateur, car le numérateur est déjà sous la forme requise. Nous avons
En substituant à et en utilisant la linéarité du produit intérieur, on obtientu(α)=αy^
Observe ceci
En mettant tout cela ensemble, vous remarquerez que nous obtenons
Pour conclure, et il est donc clair que diminue de façon monotone dans et as . ρ j(α)α ρ j(α)↓0α↑une1−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0 ρ^j(α) α ρ^j(α)↓0 α↑1
Épilogue : Concentrez-vous sur les idées ici. Il n'y en a vraiment qu'un. Le lemme d'orthogonalité fait presque tout le travail pour nous. Le reste n'est que l'algèbre, la notation et la possibilité de mettre ces deux derniers au travail.
la source