Comment utiliser les principaux composants comme prédicteurs dans GLM?

9

Comment utiliser la sortie d'une analyse en composantes principales (ACP) dans un modèle linéaire généralisé (GLM), en supposant que l'ACP est utilisée pour la sélection des variables pour le GLM?

Clarification: je veux utiliser PCA pour éviter d'utiliser des variables corrélées dans le GLM. Cependant, PCA me donne une sortie comme .2*variable1+.5*variable3etc. Je suis habitué à simplement mettre les variables 1 et 3 dans le GLM. Donc, comme l'ACP me donne une combinaison linéaire, dois-je par exemple mettre cela dans le GLM en tant que nouvelle variable (pour tenir compte de la variation systématique de la réponse des variables 1 et 3)?

pca generalized-linear-model feature-selection ciel
la source

12

Il est possible et parfois approprié d'utiliser un sous-ensemble des principales composantes comme variables explicatives dans un modèle linéaire plutôt que les variables d'origine. Les coefficients résultants doivent ensuite être retransformés pour s'appliquer aux variables d'origine. Les résultats sont biaisés mais peuvent être supérieurs à des techniques plus simples.

PCA fournit un ensemble de composants principaux qui sont des combinaisons linéaires des variables d'origine. Si tu as $k$ variables d'origine que vous avez encore $k$ principaux composants à la fin, mais ils ont été tournés à travers $k$ -espace dimensionnel afin qu'ils soient orthogonaux (c'est-à-dire non corrélés avec) les uns aux autres (c'est plus facile à penser avec seulement deux variables).

L'astuce pour utiliser les résultats de l'ACP dans un modèle linéaire est que vous décidez d'éliminer un certain nombre de composants principaux. Cette décision est basée sur des critères similaires aux processus de sélection des variables «habituels» de l'art noir pour les modèles de construction.

La méthode est utilisée pour traiter la multi-colinéarité. Elle est raisonnablement courante en régression linéaire avec une réponse normale et une fonction de lien d'identité du prédicteur linéaire à la réponse; mais moins commun avec un modèle linéaire généralisé. Il existe au moins un article sur les problèmes sur le Web.

Je ne connais aucune implémentation logicielle conviviale. Il serait assez simple de faire l'APC et d'utiliser les composantes principales résultantes comme variables explicatives dans un modèle linéaire généralisé; puis de revenir à l'échelle d'origine. Il serait cependant difficile d'estimer la distribution (variance, biais et forme) de vos estimateurs; la sortie standard de votre modèle linéaire généralisé sera erronée car elle suppose que vous avez affaire à des observations originales. Vous pouvez créer un bootstrap autour de l'ensemble de la procédure (PCA et glm combinés), ce qui serait réalisable dans R ou SAS.

Peter Ellis
la source

5

Ma réponse n'est pas pour la question d'origine, mais des commentaires sur votre approche.

Appliquer d'abord l'ACP, puis exécuter un modèle linéaire généralisé n'est pas recommandé. La raison en est que l'ACP sélectionnera l'importance des variables par «variance variable» mais pas «comment la variable est corrélée avec la cible de prédiction». En d'autres termes, la "sélection de variables" peut être totalement trompeuse, car elle ne sélectionne pas de variables importantes.

Voici un exemple: les futurs spectacles de gauche x1sont importants pour classer deux types de points. Mais PCA montre le contraire.

Les détails peuvent être trouvés dans ma réponse ici. Comment décider entre l'ACP et la régression logistique?

Haitao Du
la source

3

Je vous suggère de jeter un œil à ce document. Il fait un bon travail montrant la relation entre les distributions familiales gaussiennes et les systèmes d'apprenants de type PCA.

http://papers.nips.cc/paper/2078-a-generalization-of-principal-components-analysis-to-the-exponential-family.pdf

ÉDITER

Synopsis: alors que beaucoup pensent à l'ACP à partir de l'interprétation géométrique de la recherche des vecteurs orthogonaux dans un ensemble de données le plus responsable de la variance, puis à fournir des paramètres pour réorienter correctement son espace vers ces vecteurs, cet article construit l'ACP en utilisant des fonctions de probabilité exponentielles dans le contexte des modèles linéaires généralisés, et offre une extension plus puissante de l'ACP pour d'autres fonctions de probabilité au sein de la famille exponentielle. De plus, ils construisent un algorithme d'apprentissage de type PCA utilisant les divergences bregman. C'est assez facile à suivre et pour vous, il semble que cela pourrait vous aider à comprendre le lien entre l'ACP et les modèles linéaires généralisés.

citation:

Collins, Michael et coll. "Une Généralisation de l'Analyse en Composantes Principales à la Famille Exponentielle". Systèmes de traitement de l'information neuronale

themantalope
la source

Salut gung, désolé, je comprends tout à fait!

themantalope

Comment utiliser les principaux composants comme prédicteurs dans GLM?

Réponses: