Hypothèses de modèle de régression des moindres carrés partiels (PLS)

13

J'essaie de trouver des informations concernant les hypothèses de régression PLS (simple ). Je suis particulièrement intéressé par une comparaison des hypothèses de PLS par rapport à celles de régression OLS. y

J'ai lu / parcouru une grande quantité de littérature sur le sujet du PLS; des articles de Wold (Svante et Herman), Abdi et bien d'autres, mais n'ont pas trouvé de source satisfaisante.

Wold et al. (2001) PLS-regression: un outil de base de la chimiométrie mentionne des hypothèses de PLS, mais il mentionne seulement que

  1. Les X n'ont pas besoin d'être indépendants,
  2. le système est fonction de quelques variables latentes sous-jacentes,
  3. le système doit présenter une homogénéité tout au long du processus analytique, et
  4. une erreur de mesure dans est acceptable. X

Il n'y a aucune mention des exigences des données observées ou des résidus du modèle. Quelqu'un connaît-il une source qui traite de tout cela? Considérant que les mathématiques sous-jacentes sont analogues à l'ACP (dans le but de maximiser la covariance entre et X ), la normalité multivariée de ( y , X ) est-elle une hypothèse? Les résidus du modèle doivent-ils présenter une homogénéité de variance?yX(y,X)

Je crois aussi avoir lu quelque part que les observations n'ont pas besoin d'être indépendantes; qu'est-ce que cela signifie en termes d'études de mesures répétées?

Patrick
la source
Le lien vers Wold. et al est incorrect. Est-ce celui-là qu'il devrait être? libpls.net/publication/PLS_basic_2001.pdf
emudrak
Un client a demandé à un critique de commenter un article qui disait quelque chose: «montrer que vous avez vérifié l'hypothèse de linéarité». Comment ferais-tu ceci?
emudrak

Réponses:

5

yX . Les hypothèses n'apparaissent que dans le contexte des déclarations d'optimalité.

Plus généralement, les «hypothèses» sont quelque chose que seul un résultat théorique (théorème) peut avoir.

yX

De plus, le résultat réel de la régression PLS dépend du nombre de composants PLS inclus dans le modèle, qui agit comme un paramètre de régularisation. Parler d'hypothèses n'a de sens que si la procédure de sélection de ce paramètre est complètement spécifiée (et ce n'est généralement pas le cas). Je ne pense donc pas qu'il y ait du tout des résultats d'optimalité pour PLS, ce qui signifie que la régression PLS n'a pas d'hypothèses. Je pense qu'il en va de même pour toutes les autres méthodes de régression pénalisées telles que la régression en composantes principales ou la régression en crête.

Mise à jour: J'ai développé cet argument dans ma réponse à Quelles sont les hypothèses de régression de crête et comment les tester?

Bien sûr, il peut toujours y avoir des règles de base qui disent quand la régression PLS est susceptible d'être utile et quand elle ne l'est pas. Veuillez voir ma réponse liée ci-dessus pour une discussion; les praticiens expérimentés du PLSR (je ne suis pas l'un d'eux) pourraient certainement en dire plus.

amibe dit réintégrer Monica
la source
Qu'en est-il de la normalité et de l'indépendance de l'échantillonnage?
WCMC
3

Apparemment, PLS ne fait pas d'hypothèses "dures" sur la distribution conjointe de vos variables. Cela signifie que vous devez faire attention à choisir les statistiques de test appropriées (je suppose que ce manque de dépendance aux distributions variables classe PLS comme une technique non paramétrique). Les suggestions que j'ai trouvées pour les statistiques appropriées sont 1) l'utilisation du r au carré pour les variables latentes dépendantes et 2) les méthodes de rééchantillonnage pour évaluer la stabilité des estimations.

La principale différence entre OLS / MLS et PLS est que la première utilise généralement l'estimation du maximum de vraisemblance des paramètres de population pour prédire les relations entre les variables, tandis que PLS estime les valeurs des variables pour la population réelle pour prédire les relations entre les groupes de variables (en associant des groupes de prédicteurs / variables de réponse avec variables latentes).

Je suis également intéressé à gérer des expériences répétées / répétées, en particulier des expériences multifactorielles, mais je ne sais pas comment aborder cela en utilisant PLS.

Manuel des moindres carrés partiels: concepts, méthodes et applications (page 659, section 28.4)

Wold, H. 2006. Spécifications des prédicteurs. Encyclopédie des sciences statistiques. 9.

http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (pages 4 et 5)

ejspina
la source