Comment utiliser l'analyse des composants principaux pour sélectionner les variables à régresser?

12

J'utilise actuellement l'analyse des composants principaux pour sélectionner les variables à utiliser dans la modélisation. En ce moment, je fais des mesures A, B et C dans mes expériences - Ce que je veux vraiment savoir, c'est: Puis-je faire moins de mesures et arrêter l'enregistrement de C et ou B pour gagner du temps et des efforts?

Je trouve que les 3 variables se chargent lourdement sur ma première composante principale qui représente 60% de la variance dans mes données. Les scores des composants me disent que si j'additionne ces variables ensemble dans un certain rapport (aA + bB + cC). Je peux obtenir un score sur PC1 pour chaque cas dans mon jeu de données et je pourrais utiliser ce score comme variable dans la modélisation, mais cela ne me permet pas d'arrêter de mesurer B et C.

Si je mets au carré les charges de A et B et C sur PC1, je trouve que la variable A représente 65% de la variance dans PC1 et la variable B représente 50% de la variance dans PC1 et la variable C également 50%, c'est-à-dire certains de la variance dans PC1 expliquée par chaque variable A, B et C est partagée avec une autre variable, mais A arrive en tête pour un peu plus.

Est-il faux de penser que je pourrais simplement choisir la variable A ou éventuellement (aA + bB, si nécessaire) à utiliser dans la modélisation parce que cette variable décrit une grande proportion de la variance dans PC1 et cela à son tour décrit une grande proportion de la variance dans les données?

Quelle approche avez-vous choisie par le passé?

  • Variable unique qui charge le plus lourd sur PC1 même s'il existe d'autres chargeurs lourds?
  • Score des composants sur PC1 en utilisant toutes les variables même si ce sont tous des chargeurs lourds?
N26
la source

Réponses:

14

Vous n'avez pas spécifié sur quelle «modélisation» vous prévoyez, mais il semble que vous vous demandiez comment sélectionner des variables indépendantes parmi , et dans le but de (par exemple) régresser une quatrième variable dépendante sur elles.B C WABCW

Pour voir que cette approche peut mal tourner, considérons trois variables indépendantes normalement distribuées , et avec variance unitaire. Pour le vrai modèle sous-jacent , choisissez une petite constante , une très petite constante , et laissez la (variable dépendante) (plus un peu d'erreur indépendante de , , et ).Y Z β 1 ϵ β W = Z X Y ZXYZβ1ϵβW=ZXYZ

Supposons que les variables indépendantes que vous avez sont , et . Ensuite et sont fortement corrélés ( en fonction de la variance de l'erreur), parce que chacun est à proximité d'un multiple de . Cependant, est non corrélé avec l'un de ou . Étant donné que est petit, le premier composant principal de est parallèle à avec la valeur propre . et chargent fortement sur ce composant etB = X - ϵ Y C = β Z W C Z WA=X+ϵYB=XϵYC=βZWCZWB β { A , B , C } X 2 β A B C X Y C A B W A BABβ{A,B,C}X2βABCcharge pas du tout car il est indépendant de (et ). Néanmoins, si vous supprimez des variables indépendantes, ne laissant que et , vous perdrez toutes les informations sur la variable dépendante car , et sont indépendants!XYCABWAB

Cet exemple montre que pour la régression, vous voulez faire attention à la façon dont les variables indépendantes sont corrélées avec la variable dépendante; vous ne pouvez pas vous en sortir simplement en analysant les relations entre les variables indépendantes.

whuber
la source
1
cela devrait-il être non ? Z + ϵ YA=X+ϵYZ+ϵY
shabbychef
@shabby Oui, merci. (J'ai dû changer tous les noms de variables dans un brouillon pour correspondre aux noms de l'OP et j'ai foiré celui-ci.)
whuber
4

Si vous n'avez que 3 IVs, pourquoi voulez-vous les réduire?

Autrement dit, votre échantillon est-il très petit (de sorte que 3 IVs risquent de sur-ajuster)? Dans ce cas, considérez les moindres carrés partiels

Ou les mesures sont-elles très coûteuses (donc, à l'avenir, vous ne souhaitez mesurer qu'une seule IV)? Dans ce cas, j'envisagerais d'examiner les différentes régressions avec chaque IV séparément et ensemble.

Ou quelqu'un dans votre passé a-t-il trop insisté sur la valeur de la parcimonie? Dans ce cas, pourquoi ne pas inclure les 3 IV?

Peter Flom - Réintégrer Monica
la source