J'ai lu Les éléments de l'apprentissage statistique et je ne pouvais pas comprendre en quoi consiste la section 3.7 «Réduction et sélection des résultats multiples». Il parle de RRR (régression à rang réduit), et je peux seulement comprendre que la prémisse concerne un modèle linéaire multivarié généralisé où les coefficients sont inconnus (et doivent être estimés) mais sont connus pour ne pas avoir un rang complet. C'est la seule chose que je comprends.
Le reste des mathématiques me dépasse. Cela n'aide même pas que les auteurs disent «on peut montrer» et laisse les choses comme un exercice.
Quelqu'un peut-il s'il vous plaît aider à expliquer ce qui se passe ici, intuitivement? Ce chapitre est-il censé discuter de nouvelles méthodes? ou quoi?
la source
Réponses:
1. Qu'est-ce que la régression à rang réduit (RRR)?
Considérons la régression linéaire multiple multivariée, c'est-à-dire la régression avec variables indépendantes et q variables dépendantes. Soit X et Y des ensembles de données de prédicteur centré ( n × p ) et de réponse ( n × q ). La régression habituelle des moindres carrés ordinaires (OLS) peut alors être formulée comme minimisant la fonction de coût suivante:p q X Oui n × p n × q
où est une matrice de poids de régression. Sa solution est donnée par et il est facile de voir que cela équivaut à faire régressions OLS distinctes, une pour chaque variable dépendante.B p × q
Régression rang réduit introduit une contrainte de rang sur , à savoir devrait être réduite au minimum avec , où est le maximum autorisé de rang . L rang ( B ) ≤ r r BB L rang( B ) ≤ r r B
2. Comment obtenir la solution RRR?
Il s'avère que RRR peut être casté comme un problème de vecteur propre. En effet, en utilisant le fait que OLS est essentiellement une projection orthogonale sur l'espace de colonne de , nous pouvons réécrire commeLe premier terme ne dépend pas de et le deuxième terme peut être minimisé par SVD / PCA des valeurs ajustées . L L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . B Y = X B O L SX L
Plus précisément, si sont les premiers axes principaux de , alors r Y B R R R = B O L S U r U ⊤ r .Ur r Oui^
3. À quoi sert RRR?
Il peut y avoir deux raisons d'utiliser RRR.
Tout d'abord, on peut l'utiliser à des fins de régularisation. De même à la régression de crête (RR), Lasso, etc., RRR introduit une pénalité "retrait" sur . Le rang optimal peut être trouvé par validation croisée. D'après mon expérience, RRR surpasse facilement l'OLS mais a tendance à perdre contre RR. Cependant, RRR + RR peuvent fonctionner (légèrement) mieux que RR seul. rB r
Deuxièmement, on peut l'utiliser comme méthode de réduction de dimensionnalité / d'exploration de données. Si nous avons un tas de variables prédictives et un tas de variables dépendantes, alors RRR construira des "facteurs latents" dans l'espace des prédicteurs qui feront le meilleur travail pour expliquer la variance des DV. On peut alors essayer d'interpréter ces facteurs latents, de les tracer, etc. Pour autant que je sache, cela se fait couramment en écologie où RRR est connu sous le nom d' analyse de redondance et est un exemple de ce qu'ils appellent des méthodes d'ordination ( voir la réponse de @ GavinSimpson ici ).
4. Relation avec d'autres méthodes de réduction de la dimensionnalité
RRR est étroitement lié à d'autres méthodes de réduction de la dimensionnalité, telles que l'ACC et le PLS. Je l'ai couvert un peu dans ma réponse à Quel est le lien entre les moindres carrés partiels, la régression à rang réduit et la régression à composantes principales?
Voir ici pour plus de détails.
Voir Torre, 2009, A Least-Squares Framework for Component Analysis pour un traitement détaillé de la façon dont la plupart des méthodes multivariées linéaires courantes (par exemple PCA, CCA, LDA, - mais pas PLS!) Peuvent être considérées comme RRR.
5. Pourquoi cette section dans Hastie et al. si confus?
Hastie et al. utilisez le terme RRR pour désigner une chose légèrement différente! Au lieu d'utiliser la fonction de perte ils utilisent comme on peut le voir dans leur formule 3.68. Ceci introduit un facteur de blanchiment dans la fonction de perte, blanchissant essentiellement les variables dépendantes. Si vous regardez la comparaison entre CCA et RRR ci-dessus, vous remarquerez que si est blanchi, la différence disparaît. Alors, ce que Hastie et al. appeler RRR est en fait CCA déguisé (et en effet, voir leur 3.69).
Rien de tout cela n'est correctement expliqué dans cette section, d'où la confusion.
Voir ma réponse au tutoriel amical ou à l'introduction à la régression à rang réduit pour une lecture plus approfondie.
la source
La régression de rang réduit est un modèle où il n'y a pas un seul résultat Y, mais plusieurs résultats Y. Bien sûr, vous pouvez simplement ajuster une régression linéaire multivariée distincte pour chaque réponse, mais cela semble inefficace lorsque la relation fonctionnelle entre les prédicteurs et chaque réponse est clairement similaire. Voir cet exercice kaggle pour une situation où je crois que cela vaut évidemment.
https://www.kaggle.com/c/bike-sharing-demand/data
Il existe plusieurs techniques connexes pour aborder ce problème qui construisent des «facteurs» ou des «composants» à partir des variables X qui sont ensuite utilisées pour prédire les Y. Cette page de documentation de SAS a aidé à clarifier les différences pour moi. La régression de rang réduit semble concerner l'extraction de composants qui tiennent compte au maximum de la variation entre les réponses, contrairement aux moindres carrés partiels qui extrait les composants qui tiennent au maximum la variation entre les réponses et les prédicteurs.
https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm
la source