J'utilise l'analyse en composantes principales (ACP) pour créer un index requis pour mes recherches. Ma question est de savoir comment créer un index unique en utilisant les principaux composants retenus calculés via PCA.
Par exemple, j'ai décidé de conserver 3 composantes principales après avoir utilisé l'ACP et j'ai calculé les scores pour ces 3 composantes principales. Quelles sont les façons appropriées de créer, pour chaque répondant, un index unique à partir de ces 3 scores?
- Est-il pertinent d'ajouter les 3 scores calculés pour avoir une valeur composite?
- Ou faire la moyenne des 3 scores pour avoir une telle valeur?
- Ou devrais-je simplement conserver la première composante principale (la plus forte) uniquement et utiliser son score comme indice?
Alternativement, on pourrait utiliser l'analyse factorielle (AF) mais la même question demeure: comment créer un seul indice basé sur plusieurs scores factoriels?
pca
factor-analysis
rating
composite
scale-construction
user179313
la source
la source
Réponses:
Cette réponse est délibérément non mathématique et est orientée vers un psychologue non statisticien (par exemple) qui demande s'il peut additionner / moyenne des scores factoriels de différents facteurs pour obtenir un score "indice composite" pour chaque répondant.
La somme ou la moyenne des scores de certaines variables suppose que les variables appartiennent à la même dimension et sont des mesures fongibles. (Dans la question, les "variables" sont des scores de composante ou de facteur , ce qui ne change rien, car ce sont des exemples de variables.)
(Vous pourriez vous exclamer "Je vais rendre tous les scores de données positifs et calculer la somme (ou la moyenne) avec bonne conscience depuis que j'ai choisi la distance Manhatten", mais pensez-vous s'il vous plaît - avez-vous le droit de déplacer l'origine librement? Principaux composants ou facteurs, par exemple, sont extraites à condition que les données aient été centrées sur la moyenne, ce qui est logique. Une autre origine aurait produit d'autres composants / facteurs avec d'autres scores. Non, la plupart du temps vous ne pouvez pas jouer avec l'origine - le lieu de "répondant typique" ou de "trait de niveau zéro" - comme vous avez envie de jouer.)
Pour résumer , si le but de la construction composite est de refléter les positions des répondants relativement à un «zéro» ou à un locus typique mais que les variables ne sont pratiquement pas corrélées, une sorte de distance spatiale par rapport à cette origine, et non une moyenne (ou une somme), pondérée ou non pondéré, doit être choisi.
Eh bien, la moyenne (somme) aura un sens si vous décidez de voir les variables (non corrélées) comme des modes alternatifs pour mesurer la même chose. De cette façon, vous ignorez délibérément la nature différente des variables. En d'autres termes, vous quittez consciemment la Fig. 2 en faveur de la Fig. 1: vous "oubliez" que les variables sont indépendantes. Ensuite, faites la somme ou la moyenne. Par exemple, les scores sur le "bien-être matériel" et sur le "bien-être émotionnel" pourraient être moyennés, de même que les scores sur le "QI spatial" et sur le "QI verbal". Ce type de purement pragmatique, les composites satistiquement non approuvés sont appelés indices de batterie (un ensemble de tests ou de questionnaires qui mesurent des choses sans rapport ou des choses corrélées dont nous ignorons les corrélations est appelé "batterie"). Les indices de batterie n'ont de sens que si les scores ont la même direction (comme la richesse et la santé émotionnelle sont considérées comme un «meilleur» pôle). Leur utilité en dehors des paramètres ad hoc étroits est limitée.
Si les variables sont des relations entre elles - elles sont considérablement corrélées mais pas encore assez fortement pour les voir comme des doublons, des alternatives les unes des autres, nous additionnons souvent (ou faisons la moyenne) leurs valeurs de manière pondérée. Ensuite, ces poids doivent être soigneusement conçus et ils doivent refléter, de telle ou telle manière, les corrélations. C'est ce que nous faisons, par exemple, au moyen de l'ACP ou de l'analyse factorielle (FA) où nous calculons spécialement les scores composant / facteur. Si vos variables sont elles-mêmes déjà des scores de composante ou de facteur (comme le dit la question OP ici) et qu'elles sont corrélées (en raison de la rotation oblique), vous pouvez les soumettre (ou directement la matrice de chargement) à l'APC / FA de second ordre pour trouver les poids et obtenez le PC / facteur de second ordre qui servira "l'indice composite" pour vous.
Mais si vos scores de composante / facteur n'étaient pas corrélés ou faiblement corrélés, il n'y a aucune raison statistique de ne pas les additionner sans ambages ni de déduire des poids. Utilisez plutôt une certaine distance. Le problème de la distance est qu'elle est toujours positive: vous pouvez dire à quel point un répondant est atypique mais ne peut pas dire s'il est "au-dessus" ou "en dessous". Mais c'est le prix à payer pour exiger un seul index hors de l'espace multi-traits. Si vous voulez à la fois une déviation et un signe dans un tel espace, je dirais que vous êtes trop exigeant.
Sur ce dernier point, le PO demande s'il est juste de ne prendre que le score d'une variable la plus forte par rapport à sa variance - 1ère composante principale dans ce cas - comme seul proxy, pour l '"indice". Il est logique que ce PC soit beaucoup plus puissant que les autres PC. Bien que l'on puisse se demander alors "si elle est tellement plus forte, pourquoi ne l'avez-vous pas extraite / conservée uniquement?".
la source
Création d'un index composite à l'aide de PCA à partir de liens de séries chronologiques vers http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .
Dans cet article à la page 19, les auteurs mentionnent un moyen de créer un indice non normalisé (INS) en utilisant la proportion de variation expliquée par chaque facteur à la variation totale expliquée par les facteurs choisis. Ce NSI a ensuite été normalisé.
la source