Pourquoi tous les composants PLS ensemble n'expliquent-ils qu'une partie de la variance des données d'origine?

10

J'ai un ensemble de données composé de 10 variables. J'ai exécuté des moindres carrés partiels (PLS) pour prédire une seule variable de réponse par ces 10 variables, extrait 10 composantes PLS, puis calculé la variance de chaque composante. Sur les données originales, j'ai pris la somme des variances de toutes les variables qui est 702.

Ensuite, j'ai divisé la variance de chacun des composants PLS par cette somme pour obtenir le pourcentage de la variance expliquée par le PLS, et étonnamment tous les composants ensemble expliquent simplement 44% de la variance d'origine.

Quelle est l'explication de cela? Cela ne devrait-il pas être à 100%?

Ress
la source
Comme je sais du côté de la réponse (y), ce qui détermine le nombre de composants PLS est le nombre minimum de l'observation. j'ai 20 observations. Mais d'un autre côté, je n'ai que 10 variables indépendantes, ce qui me limite à 10 PLS. Ma question est quelle est la formule générale pour calculer la variance expliquée par chaque composant (PLS ou PCA).
Ress
mathworks.com/help/stats/plsregress.html cet exemple n'a qu'une seule variable côté Y et calcule 10 composants.
Ress

Réponses:

12

La somme des variances de tous les composants PLS est normalement inférieure à 100%.

Il existe de nombreuses variantes des moindres carrés partiels (PLS). Ce que vous avez utilisé ici, c'est la régression PLS d'une variable de réponse univariée sur plusieurs variables ; cet algorithme est traditionnellement appelé PLS1 (contrairement à d'autres variantes, voir Rosipal & Kramer, 2006, Overview and Recent Advances in Partial Least Squares pour un aperçu concis). PLS1 s'est avéré plus tard équivalent à une formulation plus élégante appelée SIMPLS (voir la référence au Jwall 1988 paywalled dans Rosipal & Kramer). La vue fournie par SIMPLS permet de comprendre ce qui se passe dans PLS1.yX

Il s'avère que ce que fait PLS1, c'est de trouver une séquence de projections linéaires , telle que:ti=Xwi

  1. La covariance entre et est maximale;yti
  2. Tous les vecteurs de poids ont une longueur unitaire, ;wi=1
  3. Deux composants PLS (alias vecteurs de score) et sont pas corrélés.titj

Notez que les vecteurs de poids ne doivent pas être (et ne sont pas) orthogonaux.

Cela signifie que si est composé de variables et que vous avez trouvé composants PLS, vous avez trouvé une base non orthogonale avec des projections non corrélées sur les vecteurs de base. On peut mathématiquement prouver que , dans une telle situation , la somme des écarts de toutes ces projections sera inférieure à la variance totale de . Ils seraient égaux si les vecteurs poids étaient orthogonaux (comme par exemple en PCA), mais en PLS ce n'est pas le cas.Xk=1010X

Je ne connais aucun manuel ou article qui traite explicitement de cette question, mais je l'ai expliqué plus tôt dans le contexte de l'analyse discriminante linéaire (LDA) qui produit également un certain nombre de projections non corrélées sur des vecteurs de poids unitaire non orthogonaux, voir ici : Proportion de la variance expliquée dans le PCA et le LDA .

amibe
la source
Merci et oui c'est logique. Je ne savais pas que les vecteurs de chargement (poids) n'étaient pas orthogonaux. Ainsi, il ne capture pas la variance maximale de X. En suivant l'exemple de matlab, pouvez-vous m'aider comment puis-je obtenir mathématiquement les valeurs "PCTVAR"?.
Ress
Je ne suis pas sûr, mais je peux y penser. La première colonne de PCTVAR(pourcentage de variance expliqué en X) ne correspond-elle pas à vos calculs? Ou posez-vous des questions sur la deuxième colonne (pourcentage de variance expliqué en y)? En général, si vous voulez entrer dans les mathématiques PLS, je vous suggère de commencer à lire l'article de Rosipal & Kramer et de suivre les liens.
amoeba