Théorie de la régression des moindres carrés partiels

La section 3.5.2 dans Les éléments de l'apprentissage statistique est utile car elle place la régression PLS dans le bon contexte (d'autres méthodes de régularisation), mais elle est en effet très brève et laisse quelques déclarations importantes comme exercices. De plus, il considère uniquement le cas d'une variable dépendante univariée $\mathbf y$ .

La littérature sur PLS est vaste, mais peut être assez déroutante car il existe de nombreuses "saveurs" différentes de PLS: versions univariées avec un seul DV $\mathbf y$ (PLS1) et versions multivariées avec plusieurs DVs $\mathbf Y$ (PLS2), versions symétriques traiter $\mathbf X$ et $\mathbf Y$ manière égale et les versions asymétriques ("régression PLS") traiter $\mathbf X$ comme indépendant et $\mathbf Y$ comme variables dépendantes, versions qui permettent une solution globale via SVD et versions qui nécessitent des déflations itératives pour produire chaque prochaine paire de directions PLS, etc. etc.

Tout cela a été développé dans le domaine de la chimiométrie et reste quelque peu déconnecté de la littérature statistique ou d'apprentissage machine «grand public».

Le document de synthèse que je trouve le plus utile (et qui contient de nombreuses autres références) est le suivant:

Rosipal & Krämer, 2006, vue d'ensemble et progrès récents dans les moindres carrés partiels

Pour une discussion plus théorique, je peux en outre recommander:

Frank & Friedman, 1993, A Statistical View of Some Chemometrics Regression Tools

Une courte introduction sur la régression PLS avec univarié (aka PLS1, aka SIMPLS) $y$

Le but de la régression est d'estimer dans un modèle linéaire . La solution OLS bénéficie de nombreuses propriétés d'optimalité mais peut souffrir d'un sur-ajustement. En effet, OLS recherche qui produit la corrélation la plus élevée possible de avec . S'il y a beaucoup de prédicteurs, il est toujours possible de trouver une combinaison linéaire qui se trouve avoir une forte corrélation avec . Ce sera une fausse corrélation, et une telle pointera généralement dans une direction expliquant très peu de variance dans $\beta$ $y=X\beta + \epsilon$ $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ $\beta$ $\mathbf X \beta$ $\mathbf y$ $\mathbf y$ $\beta$ $\mathbf X$ . Les directions expliquant très peu de variance sont souvent des directions très "bruyantes". Si tel est le cas, même si, sur les données de formation, la solution OLS fonctionne très bien, sur les données de test, elle sera bien pire.

Afin d'éviter le surajustement, on utilise des méthodes de régularisation qui obligent essentiellement à pointer dans des directions de forte variance dans (cela est aussi appelé "rétrécissement" de ; voir Pourquoi le rétrécissement fonctionne-t-il? ). L'une de ces méthodes est la régression en composantes principales (PCR) qui rejette simplement toutes les directions à faible variance. Une autre (meilleure) méthode est la régression des crêtes qui pénalise en douceur les directions à faible variance. Encore une autre méthode est PLS1. $\beta$ $\mathbf X$ $\beta$

PLS1 remplace l'objectif OLS de trouver qui maximise la corrélation avec un autre objectif de trouver with length maximisant la covariance ce qui pénalise à nouveau efficacement les directions de faible variance. $\beta$ $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ $\beta$ $\|\beta\|=1$

cov (X β, y) \sim corr (X β, y) \cdot \sqrt{var (X β)},

$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$

La recherche d'un tel (appelons-le ) produit le premier composant PLS . On peut en outre rechercher le deuxième (puis le troisième, etc.) composant PLS qui a la covariance la plus élevée possible avec sous la contrainte de ne pas être corrélé avec tous les composants précédents. Cela doit être résolu de manière itérative, car il n'y a pas de solution de forme fermée pour tous les composants (la direction du premier composant est simplement donnée par $\beta$ $\beta_1$ $\mathbf z_1 = \mathbf X \beta_1$ $\mathbf y$ $\beta_1$ $\mathbf X^\top \mathbf y$ normalisé à la longueur unitaire). Lorsque le nombre souhaité de composants est extrait, la régression PLS supprime les prédicteurs d'origine et utilise les composants PLS comme nouveaux prédicteurs; cela donne une combinaison linéaire de ceux-ci qui peuvent être combinés avec tous pour former le final . $\beta_z$ $\beta_i$ $\beta_\mathrm{PLS}$

Notez que:

Si tous les composants PLS1 sont utilisés, alors PLS sera équivalent à OLS. Le nombre de composants sert donc de paramètre de régularisation: plus le nombre est faible, plus la régularisation est forte.
Si les prédicteurs sont pas corrélés et ont tous la même variance (c'est-à-dire que a été blanchi ), alors il n'y a qu'un seul composant PLS1 et il est équivalent à OLS. $\mathbf X$ $\mathbf X$
Les vecteurs de poids et pour seront pas orthogonaux, mais produiront des composants non corrélés et . $\beta_i$ $\beta_j$ $i\ne j$ $\mathbf z_i=\mathbf X \beta_i$ $\mathbf z_j=\mathbf X \beta_j$

Cela étant dit, je ne connais aucun avantage pratique de la régression PLS1 par rapport à la régression de crête (alors que cette dernière présente de nombreux avantages: elle est continue et non discrète, a une solution analytique, est beaucoup plus standard, permet des extensions de noyau et des analyses formules pour les erreurs de validation croisée avec omission, etc., etc.).

Citant Frank & Friedman:

RR, PCR et PLS sont considérés dans la section 3 pour fonctionner de manière similaire. Leur principal objectif est de réduire le vecteur de coefficient de solution de la solution OLS vers des directions dans l'espace variable prédictif d'un plus grand échantillon. La PCR et le PLS rétrécissent plus fortement à l'écart des directions d'étalement faibles que RR, ce qui fournit le rétrécissement optimal (parmi les estimateurs linéaires) pour une équidirectionnelle antérieure. Ainsi, la PCR et le PLS supposent que la vérité est susceptible d'avoir des alignements préférentiels particuliers avec les directions d'étalement élevées de la distribution des variables prédictives (échantillon). Un résultat quelque peu surprenant est que PLS (en plus) place une masse de probabilité accrue sur le vrai vecteur de coefficient en alignant avec la ème direction de la composante principale, où $K$ $K$ est le nombre de composants PLS utilisés, élargissant en fait la solution OLS dans cette direction.

Ils mènent également une étude de simulation approfondie et concluent (soulignement le mien):

Pour les situations couvertes par cette étude de simulation, on peut conclure que toutes les méthodes biaisées (RR, PCR, PLS et VSS) fournissent une amélioration substantielle par rapport à OLS. [...] Dans toutes les situations, RR a dominé toutes les autres méthodes étudiées. Le PLS faisait généralement presque aussi bien que le RR et surpassait généralement la PCR, mais pas beaucoup.

Mise à jour: Dans les commentaires @cbeleites (qui travaille en chimiométrie) suggère deux avantages possibles du PLS par rapport à RR:

Un analyste peut avoir une estimation a priori du nombre de composants latents qui devraient être présents dans les données; cela permettra effectivement de définir une force de régularisation sans effectuer de validation croisée (et il pourrait ne pas y avoir suffisamment de données pour faire un CV fiable). Un tel choix a priori de pourrait être plus problématique dans RR. $\lambda$
RR fournit une seule combinaison linéaire comme solution optimale. En revanche, PLS avec par exemple cinq composants donne cinq combinaisons linéaires qui sont ensuite combinées pour prédire . Les variables d'origine qui sont fortement corrélées sont susceptibles d'être combinées en une seule composante PLS (car les combiner ensemble augmentera le terme de variance expliqué). Ainsi, il pourrait être possible d'interpréter les composants PLS individuels comme des facteurs latents réels conduisant à . L'argument est qu'il est plus facile d'interpréter etc., par opposition à l'articulation $\beta_\mathrm{RR}$ $\beta_i$ $y$ $y$ $\beta_1, \beta_2,$ $\beta_\mathrm{PLS}$ . Comparez cela avec la PCR où l'on peut également voir comme un avantage que des composants principaux individuels peuvent potentiellement être interprétés et assignés une certaine signification qualitative.

l'amibe dit de réintégrer Monica
la source

Ce document semble utile. Je ne pense pas que cela traite de la quantité de sur-ajustement qui peut être causée par le PLS.

Frank Harrell

C'est vrai, @Frank, mais honnêtement, en ce qui concerne les performances prédictives, je ne vois pas beaucoup de sens à faire autre chose que la régression de crête (ou peut-être un filet élastique si la rareté est également souhaitée). Mon intérêt pour PLS est dans l'aspect de réduction de dimensionnalité lorsque et sont tous les deux multivariés; donc je ne suis pas très intéressé par la façon dont PLS fonctionne comme une technique de régularisation (en comparaison avec d'autres méthodes de régularisation). Lorsque j'ai un modèle linéaire que je dois régulariser, je préfère utiliser la crête. Je me demande quelle est votre expérience ici?

X

$X$

Y

$Y$

amibe dit Réintégrer Monica

D'après mon expérience, la crête (estimation quadratique du maximum de vraisemblance pénalisé) donne des prédictions supérieures. Je pense que certains analystes estiment que le PLS est une technique de réduction de dimensionnalité dans le sens d'éviter le sur-ajustement mais je suppose que ce n'est pas le cas.

Frank Harrell

b) si vous optez pour, par exemple, une interprétation spectroscopique de ce que fait le modèle, je trouve plus facile de regarder les charges PLS quel type de substances sont mesurées. Vous pouvez y trouver une ou deux substances / classes de substances, alors que les coefficients qui incluent toutes les variables latentes sont plus difficiles à interpréter car les contributions spectrales de plusieurs substances sont combinées. Ceci est plus important car toutes les règles d'interprétation spectrale habituelles ne s'appliquent pas: un modèle PLS peut choisir certaines bandes d'une substance tout en ignorant d'autres. L'interprétation des spectres "normaux" utilise une grande partie de ce groupe pourrait ...

cbeleites prend en charge Monica

... proviennent de telle ou telle substance. Si c'est cette substance, il doit y avoir cet autre groupe. Comme cette dernière possibilité de vérifier la substance n'est pas possible avec les variables / charges / coefficients latents, interpréter des choses qui varient ensemble et donc se retrouver dans la même variable latente est beaucoup plus facile que d'interpréter les coefficients qui résument déjà toutes sortes de "indices" possibles "qui sont connus par le modèle.

cbeleites prend en charge Monica

Théorie de la régression des moindres carrés partiels

Réponses:

Une courte introduction sur la régression PLS avec univarié (aka PLS1, aka SIMPLS)yyy

Une courte introduction sur la régression PLS avec univarié (aka PLS1, aka SIMPLS) $y$