Création d'un index unique à partir de plusieurs composants principaux ou facteurs retenus de PCA / FA

15

J'utilise l'analyse en composantes principales (ACP) pour créer un index requis pour mes recherches. Ma question est de savoir comment créer un index unique en utilisant les principaux composants retenus calculés via PCA.

Par exemple, j'ai décidé de conserver 3 composantes principales après avoir utilisé l'ACP et j'ai calculé les scores pour ces 3 composantes principales. Quelles sont les façons appropriées de créer, pour chaque répondant, un index unique à partir de ces 3 scores?

  • Est-il pertinent d'ajouter les 3 scores calculés pour avoir une valeur composite?
  • Ou faire la moyenne des 3 scores pour avoir une telle valeur?
  • Ou devrais-je simplement conserver la première composante principale (la plus forte) uniquement et utiliser son score comme indice?

Alternativement, on pourrait utiliser l'analyse factorielle (AF) mais la même question demeure: comment créer un seul indice basé sur plusieurs scores factoriels?

user179313
la source
4
Les PC ne sont pas corrélés par définition. Par conséquent, en tant que variables, elles ne se dupliquent en aucune façon. Cela signifie qu'il n'y a aucune raison d'en créer une seule valeur (variable composite). Ou, parfois, les multiplier pourrait devenir intéressant, mais pas sommer ou faire la moyenne.
ttnphns
3
Je suis d'accord avec @ttnphns: vos deux premières options n'ont pas beaucoup de sens, et tout l'effort de "combiner" trois PC en un seul index semble peu judicieux. Prenez le 1er PC comme index ou utilisez une approche différente.
amibe dit Réintégrer Monica le
2
@ttnphns non corrélé, non indépendant. Il peut y avoir des informations redondantes répétées sur tous les PC, mais pas de façon linéaire.
conjectures
1
@amoeba Merci pour le rappel. J'ai rédigé des versions pour la balise et son extrait sur stats.stackexchange.com/tags/valuation/info .
whuber
1
@ttnphns Envisageriez-vous de publier une réponse ici sur la base de votre commentaire ci-dessus? Je viens de commencer une prime ici parce que des variations de cette question continuent d'apparaître et nous ne pouvons pas les fermer sous forme de doublons car il n'y a de réponse satisfaisante nulle part.
amibe dit Réintégrer Monica le

Réponses:

11

Cette réponse est délibérément non mathématique et est orientée vers un psychologue non statisticien (par exemple) qui demande s'il peut additionner / moyenne des scores factoriels de différents facteurs pour obtenir un score "indice composite" pour chaque répondant.

La somme ou la moyenne des scores de certaines variables suppose que les variables appartiennent à la même dimension et sont des mesures fongibles. (Dans la question, les "variables" sont des scores de composante ou de facteur , ce qui ne change rien, car ce sont des exemples de variables.)

entrez la description de l'image ici

(.8+.8)/2=.8(1.2+.4)/2=.8.8X+OuiXOuiséparément. Les variables corrélées, représentant la même dimension, peuvent être considérées comme des mesures répétées de la même caractéristique et la différence ou la non équivalence de leurs scores comme une erreur aléatoire. Il est donc warranded à somme / moyenne des scores sont attendus depuis des erreurs aléatoires annulent en spe .

XOui

entrez la description de l'image ici

.82+.821.131.22+.421,26X=.8Oui=-.8X=0Oui=0

wXXje+wOuiOuijeXOuiwXwOuisont fixés constants pour tous les répondants i, ce qui est la cause du défaut. Pour relier l'écart bivarié d'un répondant - dans un cercle ou une ellipse - des poids dépendant de ses scores doivent être introduits; la distance euclidienne considérée plus haut est en fait un exemple d'une telle somme pondérée avec des poids dépendant des valeurs. Et s'il est important pour vous d'incorporer des variances inégales des variables (par exemple des principales composantes, comme dans la question), vous pouvez calculer la distance euclidienne pondérée, la distance qui sera trouvée sur la figure 2 après que le cercle soit allongé.

|.8|+|.8|=1,6|1.2|+|.4|=1,6X=.8Oui=-.81,60

(Vous pourriez vous exclamer "Je vais rendre tous les scores de données positifs et calculer la somme (ou la moyenne) avec bonne conscience depuis que j'ai choisi la distance Manhatten", mais pensez-vous s'il vous plaît - avez-vous le droit de déplacer l'origine librement? Principaux composants ou facteurs, par exemple, sont extraites à condition que les données aient été centrées sur la moyenne, ce qui est logique. Une autre origine aurait produit d'autres composants / facteurs avec d'autres scores. Non, la plupart du temps vous ne pouvez pas jouer avec l'origine - le lieu de "répondant typique" ou de "trait de niveau zéro" - comme vous avez envie de jouer.)

Pour résumer , si le but de la construction composite est de refléter les positions des répondants relativement à un «zéro» ou à un locus typique mais que les variables ne sont pratiquement pas corrélées, une sorte de distance spatiale par rapport à cette origine, et non une moyenne (ou une somme), pondérée ou non pondéré, doit être choisi.

Eh bien, la moyenne (somme) aura un sens si vous décidez de voir les variables (non corrélées) comme des modes alternatifs pour mesurer la même chose. De cette façon, vous ignorez délibérément la nature différente des variables. En d'autres termes, vous quittez consciemment la Fig. 2 en faveur de la Fig. 1: vous "oubliez" que les variables sont indépendantes. Ensuite, faites la somme ou la moyenne. Par exemple, les scores sur le "bien-être matériel" et sur le "bien-être émotionnel" pourraient être moyennés, de même que les scores sur le "QI spatial" et sur le "QI verbal". Ce type de purement pragmatique, les composites satistiquement non approuvés sont appelés indices de batterie (un ensemble de tests ou de questionnaires qui mesurent des choses sans rapport ou des choses corrélées dont nous ignorons les corrélations est appelé "batterie"). Les indices de batterie n'ont de sens que si les scores ont la même direction (comme la richesse et la santé émotionnelle sont considérées comme un «meilleur» pôle). Leur utilité en dehors des paramètres ad hoc étroits est limitée.

Si les variables sont des relations entre elles - elles sont considérablement corrélées mais pas encore assez fortement pour les voir comme des doublons, des alternatives les unes des autres, nous additionnons souvent (ou faisons la moyenne) leurs valeurs de manière pondérée. Ensuite, ces poids doivent être soigneusement conçus et ils doivent refléter, de telle ou telle manière, les corrélations. C'est ce que nous faisons, par exemple, au moyen de l'ACP ou de l'analyse factorielle (FA) où nous calculons spécialement les scores composant / facteur. Si vos variables sont elles-mêmes déjà des scores de composante ou de facteur (comme le dit la question OP ici) et qu'elles sont corrélées (en raison de la rotation oblique), vous pouvez les soumettre (ou directement la matrice de chargement) à l'APC / FA de second ordre pour trouver les poids et obtenez le PC / facteur de second ordre qui servira "l'indice composite" pour vous.

Mais si vos scores de composante / facteur n'étaient pas corrélés ou faiblement corrélés, il n'y a aucune raison statistique de ne pas les additionner sans ambages ni de déduire des poids. Utilisez plutôt une certaine distance. Le problème de la distance est qu'elle est toujours positive: vous pouvez dire à quel point un répondant est atypique mais ne peut pas dire s'il est "au-dessus" ou "en dessous". Mais c'est le prix à payer pour exiger un seul index hors de l'espace multi-traits. Si vous voulez à la fois une déviation et un signe dans un tel espace, je dirais que vous êtes trop exigeant.

Sur ce dernier point, le PO demande s'il est juste de ne prendre que le score d'une variable la plus forte par rapport à sa variance - 1ère composante principale dans ce cas - comme seul proxy, pour l '"indice". Il est logique que ce PC soit beaucoup plus puissant que les autres PC. Bien que l'on puisse se demander alors "si elle est tellement plus forte, pourquoi ne l'avez-vous pas extraite / conservée uniquement?".

ttnphns
la source
0

Création d'un index composite à l'aide de PCA à partir de liens de séries chronologiques vers http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

Dans cet article à la page 19, les auteurs mentionnent un moyen de créer un indice non normalisé (INS) en utilisant la proportion de variation expliquée par chaque facteur à la variation totale expliquée par les facteurs choisis. Ce NSI a ensuite été normalisé.

SACHIN GARG
la source
6
Cette section de la page 19 fait exactement cette addition douteuse et problématique de pommes et d'oranges contre laquelle nous avons été mis en garde par l'amibe et moi-même dans les commentaires ci-dessus. La somme des variables non corrélées dans un indice n'a pratiquement aucune signification statistique .
ttnphns
1
Parfois, nous ajoutons des constructions / échelles / tests qui ne sont pas corrélés et mesurent différentes choses. Ce serait l' indice de batterie (les tests qui sont considérés comme très différents / non corrélés sont appelés "batterie"). Un indice de batterie pourrait avoir un certain sens pragmatique local bien qu'il manque presque une signification statistique , comme dit dans le commentaire précédent.
ttnphns
voir également la question stats.stackexchange.com/q/236786/3277 .
ttnphns
-1 en raison de ce qui est écrit ci-dessus.
Amoeba dit Reinstate Monica