Qu'est-ce que la «régression à rang réduit»?

J'ai lu Les éléments de l'apprentissage statistique et je ne pouvais pas comprendre en quoi consiste la section 3.7 «Réduction et sélection des résultats multiples». Il parle de RRR (régression à rang réduit), et je peux seulement comprendre que la prémisse concerne un modèle linéaire multivarié généralisé où les coefficients sont inconnus (et doivent être estimés) mais sont connus pour ne pas avoir un rang complet. C'est la seule chose que je comprends.

Le reste des mathématiques me dépasse. Cela n'aide même pas que les auteurs disent «on peut montrer» et laisse les choses comme un exercice.

Quelqu'un peut-il s'il vous plaît aider à expliquer ce qui se passe ici, intuitivement? Ce chapitre est-il censé discuter de nouvelles méthodes? ou quoi?

regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression cgo
la source

Il semble donner des méthodes de régression qui capitalisent sur des modèles à résultats multiples dans le contexte du retrait et de la sélection des variables. Il n'y a pas un seul résultat Y, mais plus d'un résultat Y. Supposons que vous ayez 5 résultats Y, alors cette section traite des méthodes pour regrouper l'estimation des méthodes, au lieu de simplement construire 5 modèles distincts.

spdrnl

Mes quelques centimes: l'hypothèse d'une matrice de bas rang simplifie les choses. Heureusement, cette hypothèse est valable pour de nombreuses sources de données réelles.

Vladislavs Dovgalecs

Il semble que cette hypothèse concerne les restrictions sur la solution. Cet article explique pourquoi statprob.com/encyclopedia/…

Vladislavs Dovgalecs

1. Qu'est-ce que la régression à rang réduit (RRR)?

Considérons la régression linéaire multiple multivariée, c'est-à-dire la régression avec variables indépendantes et variables dépendantes. Soit et prédicteur centré ( ) et de réponse ( ). La régression habituelle des moindres carrés ordinaires (OLS) peut alors être formulée comme minimisant la fonction de coût suivante: $p$ $q$ $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$

L = ‖ Oui - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X\mathbf B\|^2,$

où est une matrice de poids de régression. Sa solution est donnée par et il est facile de voir que cela équivaut à faire régressions OLS distinctes, une pour chaque variable dépendante. $\mathbf B$ $p\times q$

{\hat{B}}_{O L S} = (X^{⊤} X)^{- 1} X^{⊤} Oui,

$\hat{\mathbf B}_\mathrm{OLS}=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf Y,$

q

$q$

Régression rang réduit introduit une contrainte de rang sur , à savoir devrait être réduite au minimum avec , où est le maximum autorisé de rang . $\mathbf B$ $L$ $\operatorname{rank}(\mathbf B)\le r$ $r$ $\mathbf B$

2. Comment obtenir la solution RRR?

Il s'avère que RRR peut être casté comme un problème de vecteur propre. En effet, en utilisant le fait que OLS est essentiellement une projection orthogonale sur l'espace de colonne de , nous pouvons réécrire commeLe premier terme ne dépend pas de et le deuxième terme peut être minimisé par SVD / PCA des valeurs ajustées . $\mathbf X$ $L$

L = ‖ Oui - X {\hat{B}}_{O L S} ‖^{2} + ‖ X {\hat{B}}_{O L S} - X B ‖^{2} .

$L=\|\mathbf Y-\mathbf X\hat{\mathbf B}_\mathrm{OLS}\|^2+\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2.$

B

$\mathbf B$

\hat{Y} = X {\hat{B}}_{O L S}

$\hat{\mathbf Y}=\mathbf X\hat{\mathbf B}_\mathrm{OLS}$

Plus précisément, si sont les premiers axes principaux de , alors $\mathbf U_r$ $r$ $\hat{\mathbf Y}$

{\hat{B}}_{R R R} = {\hat{B}}_{O L S} U_{r} U_{r}^{⊤} .

$\hat{\mathbf B}_\mathrm{RRR}=\hat{\mathbf B}_\mathrm{OLS}\mathbf U_r\mathbf U_r^\top.$

3. À quoi sert RRR?

Il peut y avoir deux raisons d'utiliser RRR.

Tout d'abord, on peut l'utiliser à des fins de régularisation. De même à la régression de crête (RR), Lasso, etc., RRR introduit une pénalité "retrait" sur . Le rang optimal peut être trouvé par validation croisée. D'après mon expérience, RRR surpasse facilement l'OLS mais a tendance à perdre contre RR. Cependant, RRR + RR peuvent fonctionner (légèrement) mieux que RR seul. $\mathbf B$ $r$

Deuxièmement, on peut l'utiliser comme méthode de réduction de dimensionnalité / d'exploration de données. Si nous avons un tas de variables prédictives et un tas de variables dépendantes, alors RRR construira des "facteurs latents" dans l'espace des prédicteurs qui feront le meilleur travail pour expliquer la variance des DV. On peut alors essayer d'interpréter ces facteurs latents, de les tracer, etc. Pour autant que je sache, cela se fait couramment en écologie où RRR est connu sous le nom d' analyse de redondance et est un exemple de ce qu'ils appellent des méthodes d'ordination ( voir la réponse de @ GavinSimpson ici ).

4. Relation avec d'autres méthodes de réduction de la dimensionnalité

RRR est étroitement lié à d'autres méthodes de réduction de la dimensionnalité, telles que l'ACC et le PLS. Je l'ai couvert un peu dans ma réponse à Quel est le lien entre les moindres carrés partiels, la régression à rang réduit et la régression à composantes principales?

si et sont des ensembles de données de prédicteur centré ( ) et de réponse ( ) et si nous recherchons la première paire d'axes, pour et pour , alors ces méthodes maximisent les quantités suivantes: $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ $\mathbf v \in \mathbb R^q$ $\mathbf Y$

$\begin{aligned} P C UNE : & Var (X w) \\ R R R : & {Corr}^{2} (X w, Oui v) \cdot Var (Oui v) \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Oui v) \cdot Var (Oui v) = {Cov}^{2} (X w, Oui v) \\ C C UNE : & {Corr}^{2} (X w, Oui v) \end{aligned}$ $\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

Voir ici pour plus de détails.

Voir Torre, 2009, A Least-Squares Framework for Component Analysis pour un traitement détaillé de la façon dont la plupart des méthodes multivariées linéaires courantes (par exemple PCA, CCA, LDA, - mais pas PLS!) Peuvent être considérées comme RRR.

5. Pourquoi cette section dans Hastie et al. si confus?

Hastie et al. utilisez le terme RRR pour désigner une chose légèrement différente! Au lieu d'utiliser la fonction de perte ils utilisent comme on peut le voir dans leur formule 3.68. Ceci introduit un facteur de blanchiment dans la fonction de perte, blanchissant essentiellement les variables dépendantes. Si vous regardez la comparaison entre CCA et RRR ci-dessus, vous remarquerez que si est blanchi, la différence disparaît. Alors, ce que Hastie et al. appeler RRR est en fait CCA déguisé (et en effet, voir leur 3.69).

L = ‖ Oui - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X \mathbf B\|^2,$

L = ‖ (Oui - X B) ({Oui}^{⊤} Oui)^{- 1 / 2} ‖^{2},

$L=\|(\mathbf Y-\mathbf X \mathbf B)(\mathbf Y^\top \mathbf Y)^{-1/2}\|^2,$

Y

$\mathbf Y$

Y

$\mathbf Y$

Rien de tout cela n'est correctement expliqué dans cette section, d'où la confusion.

Voir ma réponse au tutoriel amical ou à l'introduction à la régression à rang réduit pour une lecture plus approfondie.

amibe dit réintégrer Monica
la source

Ceci est une explication détaillée très bien écrite. Merci j'apprécie.

cgo

@amoeba Fantastic answer. Puis-je suggérer quelques retouches pour le rendre plus accessible? Sur la dernière ligne de la première entrée, pouvez-vous préciser ce que est, par exemple, le rang de la matrice du modèle si tel est le cas. Deuxièmement, sur l'équation de définition sous la deuxième entrée, vous introduisez , qui est les coefficients de population, et donc un paramètre inconnu. Pouvez-vous nous en dire un peu plus?

r

$r$

B

$\bf B$

Antoni Parellada

(1) C'est une régression multivariée , @Antoni, c'est-à-dire que est une matrice, et est aussi une matrice, pas un vecteur. (2) Ici est juste un paramètre de la fonction de perte . L'objectif est de trouver réduction au minimum .

Y

$Y$

B

$B$

B

$B$

L

$L$

B

$B$

L

$L$

amibe dit Réintégrer Monica

À propos de la sélection du rang optimal dans RRRR, notez que les degrés de liberté peuvent être calculés explicitement en fonction de : , où est la dimension d'entrée et est la dimension de sortie. On peut alors utiliser la validation croisée généralisée (GCV) pour sélectionner le meilleur : minimiser .

r

$r$

r

$r$

\hat{df} (r) = p q - (p - r) (q - r) + "a small correction term"

$\hat{\text{df}}(r) = pq - (p-r)(q-r) + \text{"a small correction term"}$

p

$p$

q

$q$

r

$r$

\frac{‖ Y - {\hat{Y}}^{RRRR} (r) ‖_{Fro}^{2}}{(n q - \hat{df} (r))^{2}}

$\frac{\|Y - \hat{Y}^{\text{RRRR}}(r)\|_{\text{Fro}}^2}{(nq - \hat{\text{df}}(r))^2}$

dohmatob

Voir par exemple google.fr/url?sa=t&source=web&rct=j&url=https://…