Quel est le lien entre les moindres carrés partiels, la régression à rang réduit et la régression à composantes principales?

Ce sont trois méthodes différentes, et aucune d'entre elles ne peut être considérée comme un cas particulier d'une autre.

Formellement, si et sont des ensembles de données de prédicteur centré ( ) et de réponse ( ) et si nous recherchons la première paire d'axes, pour $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ et pour , alors ces méthodes maximiser les quantités suivantes: $\mathbf v \in \mathbb R^q$ $\mathbf Y$

\begin{aligned} P C A : & Var (X w) \\ R R R : & {Corr}^{2} (X w, Y v) \cdot Var (Y v) \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Y v) \cdot Var (Y v) = {Cov}^{2} (X w, Y v) \\ C C A : & {Corr}^{2} (X w, Y v) \end{aligned}

$\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

(J'ai ajouté l'analyse de corrélation canonique (CCA) à cette liste.)

Je soupçonne que la confusion pourrait être due au fait qu'en SAS, les trois méthodes semblent être mises en œuvre via la même fonction PROC PLSavec des paramètres différents. Il peut donc sembler que les trois méthodes sont des cas particuliers de PLS car c'est ainsi que la fonction SAS est nommée. Ce n'est cependant qu'une dénomination malheureuse. En réalité, PLS, RRR et PCR sont trois méthodes différentes qui se trouvent être implémentées dans SAS dans une fonction qui, pour une raison quelconque, est appelée PLS.

Les deux didacticiels auxquels vous avez lié sont en fait très clairs à ce sujet. La page 6 du didacticiel de présentation énonce les objectifs des trois méthodes et ne dit pas que le PLS "devient" RRR ou PCR, contrairement à ce que vous avez affirmé dans votre question. De même, la documentation SAS explique que trois méthodes sont différentes, donnant des formules et de l'intuition:

La régression des composantes [P] rincipales sélectionne les facteurs qui expliquent autant de variation de prédicteur que possible, la régression de rang réduit sélectionne les facteurs qui expliquent autant de variation de réponse que possible, et les moindres carrés partiels équilibrent les deux objectifs, recherchant des facteurs qui expliquent à la fois la réponse et la variation de prédicteur .

Il y a même une figure dans la documentation SAS montrant un bel exemple de jouet où trois méthodes donnent des solutions différentes. Dans cet exemple de jouet, il y a deux prédicteurs et et une variable de réponse . La direction en $x_1$ $x_2$ $y$ $X$ qui est le plus corrélé avec arrive à être perpendiculaire à la direction de la variance maximale dans . Par conséquent, PC1 est orthogonal au premier axe RRR et l'axe PLS est quelque part entre les deux. $y$ $X$

On peut ajouter une pénalité de crête à la fonction perdue RRR en obtenant une régression de rang réduit de crête, ou RRRR. Cela tirera l'axe de régression vers la direction PC1, quelque peu similaire à ce que fait PLS. Cependant, la fonction de coût pour RRRR ne peut pas être écrite sous forme PLS, elles restent donc différentes.

$y$

amibe dit réintégrer Monica
la source

Le tableau à la fin est très utile. Sur la base de ce tableau, on pourrait considérer PCA, RRR et CCA comme des "cas spéciaux" de PLS si vous pensez également que les vélos et les monocycles sont des cas spéciaux de tricycle. Je n'ai pas tendance à penser de cette façon.

EdM

@EdM, je pense que l'on peut dire que toutes ces méthodes sont des cas particuliers d'une méthode unificatrice qui n'a pas vraiment de nom (mais on peut l'inventer!). Mais le nom "PLS" a déjà une signification établie et cette signification ne comprend aucune de ces autres techniques.

amibe dit Réintégrer Monica

Et merci! J'ai décidé maintenant de déplacer le tableau au début de la réponse :)

amibe dit Reinstate Monica

X

$X$

Y

$Y$

V a r (X w)^{α} \cdot C o r r (X w, Y v)^{β} \cdot V a r (Y v)^{γ}

$\mathrm{Var}(Xw)^\alpha\cdot \mathrm{Corr}(Xw,Yv)^\beta\cdot \mathrm{Var}(Yv)^\gamma$

@Moskowitz: En général, lorsque les gens parlent de la méthode A comme étant un "cas spécial" de la méthode B, cela signifie que B est plus général et A est équivalent à B avec certains paramètres spécifiques. Ils ne signifient pas que A donne les mêmes résultats que B sous certaines conditions spéciales sur l'ensemble de données. D'où ma réponse à votre question.

amibe dit Réintégrer Monica

Quel est le lien entre les moindres carrés partiels, la régression à rang réduit et la régression à composantes principales?

Réponses: