Y a-t-il une quantité requise de variance saisie par l'ACP pour effectuer des analyses ultérieures?

15

J'ai un ensemble de données avec 11 variables et PCA (orthogonal) a été fait pour réduire les données. Décider du nombre de composants à conserver était évident pour moi d'après mes connaissances sur le sujet et le tracé d'éboulis (voir ci-dessous) que deux composants principaux (PC) étaient suffisants pour expliquer les données et les composants restants étaient seulement moins informatifs.

entrez la description de l'image ici
Tracé d'éboulis avec analyse parallèle: valeurs propres observées (vert) et valeurs propres simulées basées sur 100 simulations (rouge). Le tracé éboulis suggère 3 PC, alors que le test parallèle ne suggère que les deux premiers PC.

entrez la description de l'image ici

Comme vous pouvez le voir, seulement 48% de la variance ont pu être capturés par les deux premiers PC.

Le tracé des observations sur le premier plan effectuées par les 2 premiers PC a révélé trois grappes différentes en utilisant la classification agglomérative hiérarchique (HAC) et la classification K-means. Ces 3 groupes se sont avérés très pertinents pour le problème en question et étaient également cohérents avec d'autres résultats. Donc, sauf le fait que seulement 48% de la variance a été capturée, tout le reste était extrêmement bien.

Un de mes deux examinateurs a déclaré: on ne peut pas trop s'appuyer sur ces résultats car seulement 48% de la variance pourrait être expliquée et elle est inférieure à ce qui est requis.

Question
Existe-t-il une valeur requise de la quantité d'écart que l'ACP devrait saisir pour être valide? Ne dépend-elle pas des connaissances du domaine et de la méthodologie utilisées? Quelqu'un peut-il juger du bien-fondé de l'ensemble de l'analyse uniquement en fonction de la simple valeur de la variance expliquée?

Remarques

  • Les données sont 11 variables de gènes mesurées par une méthodologie très sensible en biologie moléculaire appelée réaction en chaîne de polymérase quantitative en temps réel (RT-qPCR).
  • Les analyses ont été effectuées en utilisant R.
  • Les réponses des analystes de données basées sur leur expérience personnelle de travail sur des problèmes réels dans les domaines de l'analyse de microréseaux, de la chimiométrie, des analyses spectrométriques ou similaires sont très appréciées.
  • Veuillez envisager de vous soutenir dans la réponse avec des références autant que possible.
doctorat
la source
La distribution des valeurs propres est assez importante pour la théorie des matrices aléatoires. La distribution Marcenko-Pastur est parfois utilisée pour des applications similaires.
John
Qu'est-ce que le vert et que montrent les lignes orange / brunâtre? Il n'y a qu'en axe.
usεr11852 dit Réintégrer Monic le
@ usεr11852, veuillez consulter la légende mise à jour.
doctorat du

Réponses:

8

Concernant vos questions particulières:

Existe-t-il une valeur requise de la quantité d'écart que l'ACP devrait saisir pour être valide?

Non, il n'y en a pas (à ma connaissance). Je crois fermement qu'il n'y a pas de valeur unique que vous puissiez utiliser; pas de seuil magique du pourcentage de variance capturé. L'article de Cangelosi et Goriely: La rétention des composants dans l'analyse des composants principaux avec une application aux données de puces à ADNc donne un assez bon aperçu d'une demi-douzaine de règles empiriques standard pour détecter le nombre de composants dans une étude. (Graphique d'éboulis, Proportion de la variance totale expliquée, Règle des valeurs propres moyennes, Diagramme log-valeurs propres, etc.) En tant que règles empiriques, je ne compterais pas fortement sur aucune d'entre elles.

Ne dépend-elle pas des connaissances du domaine et de la méthodologie utilisées?

Idéalement, cela devrait dépendre, mais vous devez faire attention à la façon dont vous le dites et à ce que vous voulez dire.

Par exemple: En acoustique, il y a la notion de différence juste notable ( JND ). Supposons que vous analysez un échantillon acoustique et qu'un PC particulier présente une variation d'échelle physique bien en dessous de ce seuil JND. Personne ne peut facilement prétendre que pour une application acoustique, vous auriez dû inclure ce PC. Vous analyseriez un bruit inaudible. Il peut y avoir des raisons d'inclure ce PC, mais ces raisons ne doivent pas être présentées dans l'autre sens. S'agit-il de notions similaires à JND pour l'analyse RT-qPCR?

De même, si un composant ressemble à un polynôme de Legendre d'ordre 9 et que vous avez des preuves solides que votre échantillon est constitué de bosses gaussiennes simples, vous avez de bonnes raisons de croire que vous modélisez à nouveau une variation non pertinente. Que montrent ces modes de variation orthogonaux? Qu'est-ce qui ne va pas avec le 3e PC dans votre cas par exemple?

Le fait que vous disiez " Ces 3 clusters se sont avérés très pertinents pour le problème en question " n'est pas vraiment un argument solide. Vous pourriez simplement draguer des données (ce qui est une mauvaise chose). Il existe d'autres techniques, par exemple. Les isomaps et l'incorporation localement linéaire , qui sont plutôt sympas aussi, pourquoi ne pas les utiliser? Pourquoi avez-vous choisi PCA spécifiquement?

La cohérence de vos résultats avec d'autres résultats est plus importante, surtout si ces résultats sont considérés comme bien établis. Creusez plus profondément à ce sujet. Essayez de voir si vos résultats sont en accord avec les résultats de l'ACP d'autres études.

Quelqu'un peut-il juger du bien-fondé de toute l'analyse en se fondant uniquement sur la simple valeur de la variance expliquée?

En général, il ne faut pas faire cela. Ne pensez pas que votre critique est un salaud ou quelque chose comme ça; 48% est en effet un petit pourcentage à retenir sans présenter de justifications raisonnables.

usεr11852 dit Reinstate Monic
la source
Merci pour votre réponse. RT-qPCR n'a rien de spécial comme avec JND. En fait, RT-qPCR n'est que la technique par laquelle nous mesurons les variables génétiques elles-mêmes. Très probablement, vous vouliez dire les PC qui sont les nouvelles variables constituées de la combinaison linéaire de tous les 11. Compte tenu des autres variables descriptives, les 2 premiers PC se sont révélés être liés aux cellules de la réponse immunitaire, contrairement au 3e PC. Sinon, il n'y a rien de mal au 3e PC.
doctorat du
Je vais jeter un œil aux techniques de dragage de données et en savoir plus à leur sujet. Mais savez-vous par hasard si cela a été mis en œuvre par un ou plusieurs packages R?
doctorat du
1
@doctorate: L'idée est d'éviter le dragage de données. Je suis désolé mais je ne connais aucun paquet qui le teste explicitement.
usεr11852 dit Réintégrer Monic le
1
+1, mais votre phrase sur le dragage de données ("vous pourriez simplement draguer des données") n'est pas très claire et c'est peut-être pourquoi @doctorate a été confondu. En fait, je trouve que tout le paragraphe n'est pas très clair: qu'est-ce que Isomap et LLE ont à voir avec le dragage de données? le dragage de données est-il bon ou mauvais? L'article wiki auquel vous avez lié commence par le décrire comme bon. Peut-être pourriez-vous modifier pour être un peu plus explicite dans ce paragraphe?
amibe dit Réintégrer Monica