Différence entre la régression PLS et la modélisation de chemin PLS. Critique du PLS

12

Cette question a été posée ici mais personne n'a donné une bonne réponse. Je pense donc que c'est une bonne idée de revenir sur ce sujet et je voudrais également ajouter quelques commentaires / questions.

  • La première question est quelle est la différence entre la "modélisation de chemin PLS" et la "régression PLS"? Pour le rendre plus général, que sont la modélisation par équation structurelle (SEM), la modélisation de chemin et la régression? À ma connaissance, la régression se concentre davantage sur la prédiction tandis que la SEM se concentre sur la relation entre la réponse et les prédicteurs et la modélisation du chemin est un cas spécial de SEM?

  • Ma deuxième question est de savoir à quel point le PLS est fiable? Récemment, il a fait l'objet de nombreuses critiques, comme souligné dans Rönkkö et al. 2016 et Rönkkö et al. 2015, ce qui conduit au rejet des articles basés sur PLS dans des revues de haut niveau telles que Journal of Operations Management ( voici la note du rédacteur en chef):

    Nous rejetons pratiquement tous les manuscrits basés sur PLS, car nous avons conclu que PLS était sans exception la mauvaise approche de modélisation dans les types de modèles utilisés par les chercheurs de l'OM .

    Je dois noter que mon domaine est la spectroscopie, ni la gestion / psychologie ni les statistiques. Dans les articles liés ci-dessus, les auteurs parlent davantage de PLS en tant que méthode SEM, mais pour moi, leurs critiques semblent également applicables à la régression PLS.

Ress
la source
Vos liens sont tous derrière des murs de paiement.
Jeremy Miles
tu as tout à fait raison! et je suis désolé, j'ai les fichiers PDF mais je ne sais pas si je peux télécharger ou partager. La science devrait être gratuite :)
Ress
La régression PLS est expliquée et discutée en détail dans stats.stackexchange.com/questions/179733 . Malheureusement, je ne connais pratiquement rien sur la "modélisation de chemin".
amoeba
Je pense que "modélisation de chemin" n'est qu'un autre nom pour SEM
rep_ho
Extrait de l'article de 2016: «La plupart des textes d'introduction sur PLS glissent sur les objectifs des poids, arguant que PLS est SEM et qu'il doit donc fournir un avantage sur la régression avec les composites (par exemple, Gefen et al., 2011); cependant, de tels travaux ne font souvent pas remarquer explicitement que le PLS lui-même est également une simple régression avec les composites. " est trompeur. L'axe principal de l'argument que je peux voir si les auteurs affirment que SEM doit être une construction théorique pure et qu'ils dédaignent les équations structurelles dérivées empiriquement. Mais PLS dérive des équations «structurées» par covariance.
ReneBt

Réponses:

9

La première question est quelle est la différence entre la "modélisation de chemin PLS" et la "régression PLS"?

Aucun, ce sont des synonymes.

Pour le rendre plus général, que sont la modélisation par équation structurelle (SEM), la modélisation de chemin et la régression? À ma connaissance, la régression se concentre davantage sur la prédiction tandis que la SEM se concentre sur la relation entre la réponse et les prédicteurs et la modélisation du chemin est un cas spécial de SEM?

SEM est une forme de régression. La régression est toute méthode qui corrèle des variables indépendantes et dépendantes et inclut des méthodes qui utilisent plusieurs variables traitées comme des entités distinctes. SEM utilise spécifiquement les relations mathématiques entre les variables pour contraindre le modèle final, dans le cas de PLS, c'est la covariance. Ma compréhension est que la modélisation de chemin est un terme spécifique à un domaine (pas le mien, je suis un spectroscopiste comme vous).

Ma deuxième question est de savoir à quel point le PLS est fiable? Récemment, il a fait l'objet de nombreuses critiques, comme souligné dans Rönkkö et al. 2016 et Rönkkö et al. 2015

Une excellente réfutation se trouve dans Henseler et al. 2013 Croyances communes et réalité à propos du PLS . Une préoccupation majeure pour Rönkkö et al. est que PLS n'a pas très bien fonctionné dans certaines situations qui supposent un facteur latent commun. Le PLS est en fait conçu pour gérer de multiples facteurs latents, une situation beaucoup plus courante dans le monde réel.

Comment fiable? Pour la spectroscopie, c'est un excellent outil mais il a ses limites. Il court le risque de sur-adapter car il peut construire des modèles complexes qui capturent les contributions de multiples facteurs sous-jacents. Pour cette raison, il doit être utilisé avec soin et une validation externe appropriée est essentielle, mais ces mises en garde s'appliquent à tous les outils de création de modèles. Je travaille principalement sur des ensembles de données du monde réel depuis 2 décennies et je n'ai rencontré aucun ensemble de données expérimental qui n'avait qu'un seul facteur commun sous-tendant la variable dépendante (ni basé sur des données ni sur une théorie scientifique).

ReneBt
la source
1
+1 même si je souhaite que cette réponse contienne plus de détails sur Ronkko et al. contre Henseler et al. désaccord. Je ne suis pas du tout spectroscopiste mais j'ai une relativement bonne compréhension du PLS comme méthode de régularisation pour la régression linéaire (c'est ainsi que cela est présenté dans The Elements of Statistical Learning par Hastie et al.). Je pense que cela s'appelle PLS1 en chimiométrie. Ici, la «performance» concerne l'erreur de reconstruction, on peut utiliser la validation croisée pour choisir la force de régularisation, etc. C'est un paramètre très familier pour quiconque a rencontré une régression de crête ou une PCR ou quelque chose du genre.
amoeba
[suite] Je connais également PLS2 avec plusieurs variables dépendantes, mais je ne sais pas à quelle fréquence il est utilisé. En même temps, en essayant de comprendre ce que Ronkko et al. signifie, il semble que l'accent de "SEM" est exclusivement sur la relation de multiples X à plusieurs Y (est-ce PLS2 alors?) Et peut-être plus sur l'interprétation de la relation entre X et Y plutôt que la prédiction de Y en tant que tel. Je ne suis même pas sûr de ce qu'ils entendent par «performance», et je n'ai aucune idée de ce qu'ils préfèrent utiliser à la place de PLS lorsqu'ils critiquent PLS.
amoeba
Merci à ReneBT et à l'amibe. J'ai posté cette question sur Reddit ici et quelqu'un (soumya_ray) a répondu que la régression et le SEM étaient fondamentalement différents. Elle n'a pas expliqué les différences techniques. Btw, sa réponse est contre ce que vous avez dit (votre réponse a du sens pour moi).
Ress
Btw, je fais la sélection de bande en utilisant PLS. Je confirme votre point sur les performances PLS, même si cela peut conduire à de bonnes prédictions (à la fois sur le test et l'étalonnage), mais le modèle peut être fondamentalement faux ou au moins très difficile à interpréter car il sélectionne les prédicteurs comme des variables importantes qui n'ont rien à voir avec le variable de réponse.
Ress
Un autre commentaire sur les questions clés soulevées par les auteurs est "L'algorithme PLS produit ainsi des pondérations qui augmentent la corrélation entre les composites adjacents par rapport aux composites pondérés par unité utilisés comme point de départ en utilisant des corrélations dans les données, mais cela ne pas garantir l’atteinte d’un optimum global ". Est une préoccupation valable, en un mot, cela signifie que le modèle ne s'appliquera qu'aux populations ayant la même structure de covariance sous-jacente, cela ne rend pas le PLS invalide, mais signifie qu'il faut construire et utiliser un modèle avec soin.
ReneBt