J'ai différentes variables qui interagissent au sein d'une population. Fondamentalement, j'ai fait un inventaire des mille-pattes et mesuré d'autres valeurs du terrain, comme:
- L'espèce et la quantité de spécimens collectés
- Les différents environnements où se trouvent les animaux
- le pH
- Le pourcentage de matière organique
- la quantité de P, K, Mg, Ca, Mn, Fe, Zn, Cu
- Relation Ca + Mg / K
Fondamentalement, je voudrais utiliser l'ACP pour déterminer quelles variables déterminent la variabilité des échantillons et rendent la forêt (les environnements) différente; quelles variables dois-je utiliser pour les "variables" et lesquelles pour les "individus"?
Réponses:
Comme @amoeba l'a mentionné dans les commentaires, l'ACP ne regardera qu'un seul ensemble de données et vous montrera les principaux modèles (linéaires) de variation de ces variables, les corrélations ou covariances entre ces variables et les relations entre les échantillons (les lignes ) dans votre ensemble de données.
Ce que l'on fait normalement avec un ensemble de données sur les espèces et une suite de variables explicatives potentielles, c'est d'adapter une ordination contrainte. En PCA, les composantes principales, les axes sur le biplot PCA, sont dérivées comme des combinaisons linéaires optimales de toutes les variables. Si vous avez exécuté ceci sur un ensemble de données de chimie du sol avec des variables pH, , TotalCarbon, vous pourriez constater que le premier composant étaitC a2 +
et le deuxième composant
Ces composants sont librement sélectionnables parmi les variables mesurées, et celles qui sont choisies sont celles qui expliquent séquentiellement la plus grande variation dans l'ensemble de données, et que chaque combinaison linéaire est orthogonale (non corrélée avec) les autres.
Dans une ordination contrainte, nous avons deux ensembles de données, mais nous ne sommes pas libres de sélectionner les combinaisons linéaires du premier ensemble de données (les données de chimie du sol ci-dessus) que nous voulons. Au lieu de cela, nous devons sélectionner des combinaisons linéaires des variables dans le deuxième ensemble de données qui expliquent le mieux la variation dans le premier. De plus, dans le cas de l'ACP, le seul ensemble de données est la matrice de réponse et il n'y a pas de prédicteurs (vous pourriez penser que la réponse se prédisait elle-même). Dans le cas contraint, nous avons un ensemble de données de réponse que nous souhaitons expliquer avec un ensemble de variables explicatives.
Bien que vous n'ayez pas expliqué quelles variables sont la réponse, on souhaite normalement expliquer la variation de l'abondance ou de la composition de ces espèces (c.-à-d. Les réponses) en utilisant les variables explicatives environnementales.
La version contrainte de PCA est une chose appelée analyse de redondance (RDA) dans les cercles écologiques. Cela suppose un modèle de réponse linéaire sous-jacent pour l'espèce, qui n'est pas approprié ou uniquement approprié si vous avez de courts gradients le long desquels l'espèce répond.
Une alternative à l'ACP est une chose appelée analyse des correspondances (AC). Ce n'est pas contraint, mais il a un modèle de réponse unimodal sous-jacent, qui est un peu plus réaliste en termes de réponse des espèces le long de gradients plus longs. Notez également que l'AC modélise les abondances ou la composition relatives , l'ACP modélise les abondances brutes.
Il existe une version contrainte de l'AC, connue sous le nom d' analyse de correspondance contrainte ou canonique (CCA) - à ne pas confondre avec un modèle statistique plus formel connu sous le nom d'analyse de corrélation canonique.
Tant dans la RDA que dans la CCA, l'objectif est de modéliser la variation de l'abondance ou de la composition des espèces comme une série de combinaisons linéaires des variables explicatives.
D'après la description, il semble que votre femme veuille expliquer la variation de la composition (ou de l'abondance) des espèces de mille-pattes en fonction des autres variables mesurées.
Quelques mots d'avertissement; RDA et CCA ne sont que des régressions multivariées; L'ACC n'est qu'une régression multivariée pondérée. Tout ce que vous avez appris sur la régression s'applique, et il existe également quelques autres pièges:
donc mon conseil est le même que pour la régression; réfléchissez à l'avance à vos hypothèses et incluez des variables qui reflètent ces hypothèses. Ne vous contentez pas de jeter toutes les variables explicatives dans le mélange.
Exemple
Ordination sans contrainte
PCA
Je vais montrer un exemple comparant PCA, CA et CCA en utilisant le package vegan pour R que j'aide à maintenir et qui est conçu pour s'adapter à ces types de méthodes d'ordination:
vegan ne standardise pas l'inertie, contrairement à Canoco, donc la variance totale est de 1826 et les valeurs propres sont dans ces mêmes unités et totalisent 1826
Nous voyons également que la première valeur propre est environ la moitié de la variance et avec les deux premiers axes, nous avons expliqué ~ 80% de la variance totale
Un biplot peut être tiré des scores des échantillons et des espèces sur les deux premières composantes principales
Il y a deux problèmes ici
Californie
Une AC pourrait aider avec ces deux points car elle gère mieux le long gradient en raison du modèle de réponse unimodale, et elle modélise la composition relative des espèces et non les abondances brutes.
Le code vegan / R pour ce faire est similaire au code PCA utilisé ci-dessus
Nous expliquons ici environ 40% de la variation entre les sites dans leur composition relative
L'intrigue conjointe des scores des espèces et des sites est désormais moins dominée par quelques espèces
Le PCA ou l'AC que vous choisissez doit être déterminé par les questions que vous souhaitez poser aux données. Habituellement, avec les données sur les espèces, nous sommes plus souvent intéressés par les différences dans la suite d'espèces, donc l'AC est un choix populaire. Si nous avons un ensemble de données de variables environnementales, par exemple la chimie de l'eau ou du sol, nous ne nous attendrions pas à ce que celles-ci répondent de manière unimodale le long des gradients, donc l'AC serait inapproprié et l'ACP (d'une matrice de corrélation, utilisée
scale = TRUE
dans l'rda()
appel) serait plus approprié.Ordination contrainte; CCA
Maintenant, si nous avons un deuxième ensemble de données que nous souhaitons utiliser pour expliquer les modèles dans le premier ensemble de données sur les espèces, nous devons utiliser une ordination contrainte. Souvent, le choix ici est CCA, mais RDA est une alternative, tout comme RDA après transformation des données pour lui permettre de mieux gérer les données sur les espèces.
Nous réutilisons la
cca()
fonction mais nous fournissons soit deux bases de données (X
pour les espèces etY
pour les variables explicatives / prédictives), soit une formule de modèle répertoriant la forme du modèle que nous souhaitons adapter.Pour inclure toutes les variables, nous pourrions utiliser
varechem ~ ., data = varechem
comme formule pour inclure toutes les variables - mais comme je l'ai dit ci-dessus, ce n'est pas une bonne idée en généralLe triplot de l'ordination ci-dessus est produit en utilisant la
plot()
méthodeBien sûr, la tâche consiste maintenant à déterminer laquelle de ces variables est réellement importante. Notez également que nous avons expliqué environ 2/3 de la variance des espèces en utilisant seulement 13 variables. l'un des problèmes de l'utilisation de toutes les variables dans cette ordination est que nous avons créé une configuration arquée dans les scores des échantillons et des espèces, ce qui est purement un artefact de l'utilisation d'un trop grand nombre de variables corrélées.
Si vous voulez en savoir plus à ce sujet, consultez la documentation végétalienne ou un bon livre sur l'analyse des données écologiques multivariées.
Relation avec la régression
Il est plus simple d'illustrer le lien avec RDA, mais l'ACC est identique, sauf que tout implique des sommes marginales de table bidirectionnelle de ligne et de colonne comme poids.
En son cœur, la RDA équivaut à l'application de l'ACP à une matrice de valeurs ajustées à partir d'une régression linéaire multiple ajustée à chaque espèce (réponse) valeurs (abondances, disons) avec des prédicteurs donnés par la matrice de variables explicatives.
Dans R, nous pouvons le faire comme
Les valeurs propres de ces deux approches sont égales:
Pour une raison quelconque, je ne parviens pas à faire correspondre les scores d'axe (chargements), mais invariablement, ils sont mis à l'échelle (ou non), je dois donc examiner exactement comment ceux-ci sont effectués ici.
Nous ne faisons pas le RDA via
rda()
comme je l'ai montré aveclm()
etc, mais nous utilisons une décomposition QR pour la partie modèle linéaire puis SVD pour la partie PCA. Mais les étapes essentielles sont les mêmes.la source
fitted()