La régression du moindre angle maintient les corrélations monotones décroissantes et liées?

J'essaie de résoudre un problème de régression au moindre angle (LAR). Il s'agit d'un problème 3.23 à la page 97 de Hastie et al., Elements of Statistical Learning, 2nd. ed. (5ème impression) .

Considérons un problème de régression avec toutes les variables et réponses ayant un zéro moyen et un écart-type un. Supposons également que chaque variable ait une corrélation absolue identique avec la réponse:

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p$

Soit le coefficient des moindres carrés de sur et soit pour . $\hat{\beta}$ $\mathbf{y}$ $\mathbf{X}$ $\mathbf{u}(\alpha)=\alpha \bf{X} \hat{\beta}$ $\alpha\in[0,1]$

On me demande de montrer que et j'ai des problèmes avec ça. Notez que cela peut en gros dire que les corrélations de chaque avec les résidus restent de même ampleur à mesure que nous progressons vers .

\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ | = (1 - α) λ, j = 1, . . ., p

$\frac{1}{N} | \left \langle \bf{x}_j, \bf{y}-u(\alpha) \right \rangle | = (1 - \alpha) \lambda, j = 1, ..., p$

x_{j}

$x_j$

u

$u$

Je ne sais pas non plus comment montrer que les corrélations sont égales à:

$\lambda(\alpha) = \frac{(1-\alpha)}{\sqrt{(1-\alpha)^2 + \frac{\alpha (2-\alpha)}{N} \cdot RSS}} \cdot \lambda$

Tous les pointeurs seraient grandement appréciés!

regression machine-learning correlation self-study Belmont
la source

@Belmont, qu'est-ce que ? Pourriez-vous fournir plus de contexte sur votre problème? Un lien vers un article avec les propriétés standard de LAR, par exemple, aiderait beaucoup.

u (α)

$u(\alpha)$

mpiktas

@Belmont, Cela ressemble à un problème de Hastie, et al., Elements of Statistical Learning , 2nd. ed. Est-ce des devoirs? Si c'est le cas, vous pouvez ajouter cette balise.

Cardinal

@Belmont, maintenant que @cardinal a donné une réponse complète, pouvez-vous spécifier ce qu'est vraiment le LAR, pour référence future? À en juger par la réponse, il s'agit d'une manipulation standard des produits de régression des moindres carrés, compte tenu de certaines contraintes initiales. Il ne devrait pas y avoir de nom spécial sans raison sérieuse.

mpiktas

@mpiktas, c'est un algorithme par étapes, donc chaque fois qu'une variable entre ou quitte le modèle sur le chemin de régularisation, la taille (c.-à-d. cardinalité / dimension) de augmente ou diminue respectivement et une "nouvelle" estimation LS est utilisée en fonction de les variables actuellement "actives". Dans le cas du lasso, qui est un problème d'optimisation convexe, la procédure consiste essentiellement à exploiter une structure spéciale dans les conditions KKT pour obtenir une solution très efficace. Il y a aussi des généralisations, par exemple, la régression logistique basée sur IRLS et Heine-Borel (pour prouver la convergence en nombre fini d'étapes.)

β

$\beta$

Cardinal

@Belmont -1, comme j'ai récemment acheté le livre de Hastie, je peux confirmer que c'est un exercice. Je vous donne donc un gros -1, puisque vous n'arrivez même pas à donner toutes les définitions, je ne parle même pas de donner la référence.

mpiktas

Il s'agit du problème 3.23 à la page 97 de Hastie et al., Elements of Statistical Learning , 2nd. ed. (5ème impression) .

La clé de ce problème est une bonne compréhension des moindres carrés ordinaires (c.-à-d. La régression linéaire), en particulier l'orthogonalité des valeurs ajustées et des résidus.

Lemme d'orthogonalité : Soit la matrice de conception , le vecteur de réponse et les (vrais) paramètres. En supposant que est de rang complet (ce que nous ferons tout au long), les estimations OLS de sont . Les valeurs ajustées sont . Alors . C'est-à-dire que les valeurs ajustées sont orthogonales aux résidus. Cela suit puisque . $X$ $n \times p$ $y$ $\beta$ $X$ $\beta$ $\hat{\beta} = (X^T X)^{-1} X^T y$ $\hat{y} = X (X^T X)^{-1} X^T y$ $\langle \hat{y}, y-\hat{y} \rangle = \hat{y}^T (y - \hat{y}) = 0$ $X^T (y - \hat{y}) = X^T y - X^T X (X^T X)^{-1} X^T y = X^T y - X^T y = 0$

Maintenant, nous être un vecteur de colonne telle que est la ème colonne de . Les conditions supposées sont: $x_j$ $x_j$ $j$ $X$

$\frac{1}{N} \langle x_j, x_j \rangle = 1$ pour chaque , , $j$ $\frac{1}{N} \langle y, y \rangle = 1$
$\frac{1}{N} \langle x_j, 1_p \rangle = \frac{1}{N} \langle y, 1_p \rangle = 0$ où désigne un vecteur de ceux de longueur , et $1_p$ $p$
$\frac{1}{N} | \langle x_j, y \rangle | = \lambda$ pour tout . $j$

Notez qu'en particulier , la dernière déclaration du lemme d'orthogonalité est identique à pour tout . $\langle x_j, y - \hat{y} \rangle = 0$ $j$

Les corrélations sont liées

Maintenant, . Donc, et le deuxième terme à droite est zéro par le lemme d'orthogonalité , donc comme vous le souhaitez. La valeur absolue des corrélations est juste $u(\alpha) = \alpha X \hat{\beta} = \alpha \hat{y}$

⟨ x_{j}, y - u (a) ⟩ = ⟨ x_{j}, (1 - α) y + α y - α \hat{y} ⟩ = (1 - α) ⟨ x_{j}, y ⟩ + α ⟨ x_{j}, y - \hat{y} ⟩,

$\langle x_j, y - u(a) \rangle = \langle x_j, (1-\alpha) y + \alpha y - \alpha \hat{y} \rangle = (1-\alpha) \langle x_j, y \rangle + \alpha \langle x_j, y - \hat{y} \rangle ,$

\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ | = (1 - α) λ,

$\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle | = (1-\alpha) \lambda ,$

{\hat{ρ}}_{j} (α) = \frac{\frac{1}{N} | ⟨ x_{j}, y - u (α) ⟩ |}{\sqrt{\frac{1}{N} ⟨ x_{j}, x_{j} ⟩} \sqrt{\frac{1}{N} ⟨ y - u (α), y - u (α) ⟩}} = \frac{(1 - α) λ}{\sqrt{\frac{1}{N} ⟨ y - u (α), y - u (α) ⟩}}

$\hat{\rho}_j(\alpha) = \frac{\frac{1}{N} | \langle x_j, y - u(\alpha) \rangle |}{\sqrt{\frac{1}{N} \langle x_j, x_j \rangle }\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }} = \frac{(1-\alpha)\lambda}{\sqrt{\frac{1}{N} \langle y - u(\alpha), y - u(\alpha) \rangle }}$

Remarque : Le côté droit ci-dessus est indépendant de et le numérateur est exactement le même que la covariance puisque nous avons supposé que tous les et sont centrés (donc, en particulier, aucune soustraction de la moyenne n'est nécessaire ). $j$ $x_j$ $y$

À quoi ça sert? À mesure que augmente, le vecteur de réponse est modifié de sorte qu'il se rapproche de celui de la solution des moindres carrés ( restreinte! ) Obtenue en incorporant uniquement les premiers paramètres dans le modèle. Cela modifie simultanément les paramètres estimés car ils sont de simples produits internes des prédicteurs avec le vecteur de réponse (modifié). La modification prend cependant une forme spéciale. Il conserve la (magnitude de) les corrélations entre les prédicteurs et la réponse modifiée tout au long du processus (même si la valeur de la corrélation change). Pensez à ce que cela fait géométriquement et vous comprendrez le nom de la procédure! $\alpha$ $p$

Forme explicite de la corrélation (absolue)

Concentrons-nous sur le terme au dénominateur, car le numérateur est déjà sous la forme requise. Nous avons

⟨ y - u (α), y - u (α) ⟩ = ⟨ (1 - α) y + α y - u (α), (1 - α) y + α y - u (α) ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = \langle (1-\alpha) y + \alpha y - u(\alpha), (1-\alpha) y + \alpha y - u(\alpha) \rangle .$

En substituant à et en utilisant la linéarité du produit intérieur, on obtient $u(\alpha) = \alpha \hat{y}$

⟨ y - u (α), y - u (α) ⟩ = (1 - α)^{2} ⟨ y, y ⟩ + 2 α (1 - α) ⟨ y, y - \hat{y} ⟩ + α^{2} ⟨ y - \hat{y}, y - \hat{y} ⟩ .

$\langle y - u(\alpha), y - u(\alpha) \rangle = (1-\alpha)^2 \langle y, y \rangle + 2\alpha(1-\alpha) \langle y, y - \hat{y} \rangle + \alpha^2 \langle y-\hat{y}, y-\hat{y} \rangle .$

Observe ceci

$\langle y, y \rangle = N$ par hypothèse,
$\langle y, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y} \rangle + \langle \hat{y}, y - \hat{y} \rangle = \langle y - \hat{y}, y - \hat{y}\rangle$ , en appliquant (encore une fois) le lemme d'orthogonalité au deuxième terme du milieu; et,
$\langle y - \hat{y}, y - \hat{y} \rangle = \mathrm{RSS}$ par définition.

En mettant tout cela ensemble, vous remarquerez que nous obtenons

{\hat{ρ}}_{j} (α) = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} + \frac{α (2 - α)}{N} R S S}} = \frac{(1 - α) λ}{\sqrt{(1 - α)^{2} (1 - \frac{R S S}{N}) + \frac{1}{N} R S S}}

$\hat{\rho}_j(\alpha) = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 + \frac{\alpha(2-\alpha)}{N} \mathrm{RSS}}} = \frac{(1-\alpha) \lambda}{\sqrt{ (1-\alpha)^2 (1 - \frac{\mathrm{RSS}}{N}) + \frac{1}{N} \mathrm{RSS}}}$

Pour conclure, et il est donc clair que diminue de façon monotone dans et as . $1 - \frac{\mathrm{RSS}}{N} = \frac{1}{N} (\langle y, y, \rangle - \langle y - \hat{y}, y - \hat{y} \rangle ) \geq 0$ $\hat{\rho}_j(\alpha)$ $\alpha$ $\hat{\rho}_j(\alpha) \downarrow 0$ $\alpha \uparrow 1$

Épilogue : Concentrez-vous sur les idées ici. Il n'y en a vraiment qu'un. Le lemme d'orthogonalité fait presque tout le travail pour nous. Le reste n'est que l'algèbre, la notation et la possibilité de mettre ces deux derniers au travail.

cardinal
la source

@cardinal, +1. La réponse est meilleure que la question.

mpiktas

@cardinal, vous voudrez peut-être changer le lien vers amazon ou un autre site. Je pense que le lien vers le livre complet pourrait soulever des problèmes de droit d'auteur.

mpiktas

@mpiktas, non. Aucun problème de copyright. C'est le site officiel du livre. Les auteurs ont obtenu la permission de Springer pour rendre le PDF librement accessible en ligne. (Voir la note à cet effet sur le site.) Je pense qu'ils ont eu l'idée de Stephen Boyd et de son texte d' optimisation convexe . Espérons qu'une telle tendance prendra de l'ampleur au cours des prochaines années. Prendre plaisir!

cardinal

@cardinal, ooh merci beaucoup! C'est très généreux de la part des auteurs.

mpiktas

@mpiktas, c'est de loin le livre le plus populaire de la série Springer en statistiques. Il a l'air bien sur un iPad. Ce qui me rappelle --- je devrais également y télécharger le texte de Boyd. À votre santé.

Cardinal

La régression du moindre angle maintient les corrélations monotones décroissantes et liées?

Réponses: