Utilisation de l'analyse des composants principaux par rapport à l'analyse des correspondances

9

J'analyse un ensemble de données concernant les communautés intertidales. Les données sont le pourcentage de couverture (d'algues, bernaches, moules, etc.) en quadrats. J'ai l'habitude de penser à l'analyse des correspondances (AC) en termes de dénombrement des espèces et à l'analyse en composantes principales (ACP) comme quelque chose de plus utile pour les tendances environnementales linéaires (et non les espèces). Je n'ai pas vraiment eu de chance pour savoir si PCA ou CA seraient mieux adaptés à la couverture en pourcentage (je ne trouve aucun papier), et je ne sais même pas comment un produit plafonné à 100% serait distribué. ?

Je connais la ligne directrice approximative selon laquelle si la longueur du premier axe d'analyse de correspondance détendue (DCA) est supérieure à 2, vous pouvez supposer en toute sécurité que CA doit être utilisé. La longueur de l'axe 1 du DCA était de 2,17, ce que je ne trouve pas utile.

HFBrowning
la source
3
PCA et CA sont liés et les deux peuvent être basés sur l'algorithme SVD. La différence formelle fondamentale (non mentionnée dans la réponse par ailleurs profonde de @ Gavin) est que l'ACP décompose uniquement les relations entre les colonnes (par exemple en décomposant leur matrice de covariance), en traitant les lignes comme des "cas"; tandis que CA décompose les colonnes et les lignes simultanément, les traitant symétriquement, comme des "catégories" de tabulation croisée. D'où le biplot laissé par CA et le quasi-biplot (chargements + scores) qui pourraient être tracés après l'ACP donnent des informations conceptuellement assez différentes.
ttnphns

Réponses:

9

PCA fonctionne sur les valeurs alors que CA travaille sur les valeurs relatives. Les deux sont parfaits pour les données d'abondance relative du type que vous mentionnez (avec une mise en garde majeure, voir plus loin). Avec% data, vous avez déjà une mesure relative, mais il y aura toujours des différences. Demande toi

  • voulez-vous souligner le modèle dans les espèces / taxons abondants (c'est-à-dire ceux avec un grand% de couverture), ou
  • voulez-vous vous concentrer sur les modèles de composition relative?

S'il s'agit du premier, utilisez PCA. Si ces derniers utilisent CA. Ce que je veux dire par les deux questions, c'est si vous voulez

A = {50, 20, 10}
B = { 5,  2,  1}

être considéré comme différent ou identique? Aet Bsont deux échantillons et les valeurs sont le% de couverture de trois taxons indiqués. (Cet exemple s'est avéré médiocre, supposons qu'il y ait un sol nu! ;-) PCA les considérerait très différents en raison de la distance euclidienne utilisée, mais CA considérerait ces deux échantillons comme très similaires car ils ont le même profil relatif.

La grande mise en garde ici est la nature fermée de la composition des données. Si vous avez quelques groupes (sable, limon, argile, par exemple) qui totalisent 1 (100%), aucune des deux approches n'est correcte et vous pouvez passer à une analyse plus appropriée via l'Aitch-ratio Log-ratio PCA qui a été conçu pour la composition fermée Les données. (L'IIRC pour ce faire, vous devez centrer par lignes et colonnes et enregistrer la transformation des données.) Il existe également d'autres approches. Si vous utilisez R, puis un livre qui serait utile est L' analyse compositionnelle données avec R .

Gavin Simpson
la source
Comme toujours, une excellente réponse Gavin. Je vous remercie! Cela clarifie beaucoup les choses et j'utiliserai alors PCA. Étant donné que la communauté intertidale est tridimensionnelle, le pourcentage de couverture a en fait atteint 100% dans certains cas lorsque les organismes se sont développés les uns sur les autres. Ce n'est pas la forme de composition fermée dont vous parlez, non?
HFBrowning
Non, ce n'est pas de ça qu'il parle. Par fermé, je pense qu'il veut dire un système dans lequel avec trois espèces A, B, C, vous avez% C = 100% -% B -% A
Pertinax
et qu'en est-il de DCA?
Darwin PC
DCA est une version foirée de CA donc les mêmes principes généraux s'appliquent à elle. DCA fait une torture étrange des données et je ne pense pas que nous ayons besoin de nous en préoccuper comme méthode dans notre boîte à outils aujourd'hui, mais les opinions des autres varieront à ce sujet.
Gavin Simpson