J'ai un ensemble de données avec 11 variables et PCA (orthogonal) a été fait pour réduire les données. Décider du nombre de composants à conserver était évident pour moi d'après mes connaissances sur le sujet et le tracé d'éboulis (voir ci-dessous) que deux composants principaux (PC) étaient suffisants pour expliquer les données et les composants restants étaient seulement moins informatifs.
Tracé d'éboulis avec analyse parallèle: valeurs propres observées (vert) et valeurs propres simulées basées sur 100 simulations (rouge). Le tracé éboulis suggère 3 PC, alors que le test parallèle ne suggère que les deux premiers PC.
Comme vous pouvez le voir, seulement 48% de la variance ont pu être capturés par les deux premiers PC.
Le tracé des observations sur le premier plan effectuées par les 2 premiers PC a révélé trois grappes différentes en utilisant la classification agglomérative hiérarchique (HAC) et la classification K-means. Ces 3 groupes se sont avérés très pertinents pour le problème en question et étaient également cohérents avec d'autres résultats. Donc, sauf le fait que seulement 48% de la variance a été capturée, tout le reste était extrêmement bien.
Un de mes deux examinateurs a déclaré: on ne peut pas trop s'appuyer sur ces résultats car seulement 48% de la variance pourrait être expliquée et elle est inférieure à ce qui est requis.
Question
Existe-t-il une valeur requise de la quantité d'écart que l'ACP devrait saisir pour être valide? Ne dépend-elle pas des connaissances du domaine et de la méthodologie utilisées? Quelqu'un peut-il juger du bien-fondé de l'ensemble de l'analyse uniquement en fonction de la simple valeur de la variance expliquée?
Remarques
- Les données sont 11 variables de gènes mesurées par une méthodologie très sensible en biologie moléculaire appelée réaction en chaîne de polymérase quantitative en temps réel (RT-qPCR).
- Les analyses ont été effectuées en utilisant R.
- Les réponses des analystes de données basées sur leur expérience personnelle de travail sur des problèmes réels dans les domaines de l'analyse de microréseaux, de la chimiométrie, des analyses spectrométriques ou similaires sont très appréciées.
- Veuillez envisager de vous soutenir dans la réponse avec des références autant que possible.
Réponses:
Concernant vos questions particulières:
Non, il n'y en a pas (à ma connaissance). Je crois fermement qu'il n'y a pas de valeur unique que vous puissiez utiliser; pas de seuil magique du pourcentage de variance capturé. L'article de Cangelosi et Goriely: La rétention des composants dans l'analyse des composants principaux avec une application aux données de puces à ADNc donne un assez bon aperçu d'une demi-douzaine de règles empiriques standard pour détecter le nombre de composants dans une étude. (Graphique d'éboulis, Proportion de la variance totale expliquée, Règle des valeurs propres moyennes, Diagramme log-valeurs propres, etc.) En tant que règles empiriques, je ne compterais pas fortement sur aucune d'entre elles.
Idéalement, cela devrait dépendre, mais vous devez faire attention à la façon dont vous le dites et à ce que vous voulez dire.
Par exemple: En acoustique, il y a la notion de différence juste notable ( JND ). Supposons que vous analysez un échantillon acoustique et qu'un PC particulier présente une variation d'échelle physique bien en dessous de ce seuil JND. Personne ne peut facilement prétendre que pour une application acoustique, vous auriez dû inclure ce PC. Vous analyseriez un bruit inaudible. Il peut y avoir des raisons d'inclure ce PC, mais ces raisons ne doivent pas être présentées dans l'autre sens. S'agit-il de notions similaires à JND pour l'analyse RT-qPCR?
De même, si un composant ressemble à un polynôme de Legendre d'ordre 9 et que vous avez des preuves solides que votre échantillon est constitué de bosses gaussiennes simples, vous avez de bonnes raisons de croire que vous modélisez à nouveau une variation non pertinente. Que montrent ces modes de variation orthogonaux? Qu'est-ce qui ne va pas avec le 3e PC dans votre cas par exemple?
Le fait que vous disiez " Ces 3 clusters se sont avérés très pertinents pour le problème en question " n'est pas vraiment un argument solide. Vous pourriez simplement draguer des données (ce qui est une mauvaise chose). Il existe d'autres techniques, par exemple. Les isomaps et l'incorporation localement linéaire , qui sont plutôt sympas aussi, pourquoi ne pas les utiliser? Pourquoi avez-vous choisi PCA spécifiquement?
La cohérence de vos résultats avec d'autres résultats est plus importante, surtout si ces résultats sont considérés comme bien établis. Creusez plus profondément à ce sujet. Essayez de voir si vos résultats sont en accord avec les résultats de l'ACP d'autres études.
En général, il ne faut pas faire cela. Ne pensez pas que votre critique est un salaud ou quelque chose comme ça; 48% est en effet un petit pourcentage à retenir sans présenter de justifications raisonnables.
la source