Il existe de nombreuses techniques en statistiques écologiques pour l'analyse exploratoire des données multidimensionnelles. Ces techniques sont appelées techniques d '«ordination». Beaucoup sont identiques ou étroitement liés aux techniques courantes ailleurs dans les statistiques. L'exemple prototypique serait peut-être l'analyse des composants principaux (ACP). Les écologistes pourraient utiliser l'ACP et des techniques connexes pour explorer les «gradients» (je ne sais pas exactement ce qu'est un gradient, mais j'en ai lu un peu à ce sujet.)
Sur cette page , le dernier élément sous Analyse des composants principaux (ACP) se lit comme suit:
- L'ACP a un sérieux problème pour les données sur la végétation: l'effet de fer à cheval. Cela est dû à la curvilinéarité des distributions des espèces le long des gradients. Étant donné que les courbes de réponse des espèces sont généralement unimodales (c.-à-d. Très fortement curvilignes), les effets du fer à cheval sont courants.
Plus bas sur la page, sous Analyse des correspondances ou Moyenne réciproque (RA) , il fait référence à "l'effet d'arc":
- RA a un problème: l'effet de voûte. Elle est également causée par la non-linéarité des distributions le long des gradients.
- L'arche n'est pas aussi grave que l'effet de fer à cheval du PCA, car les extrémités du gradient ne sont pas alambiquées.
Quelqu'un peut-il expliquer cela? J'ai récemment vu ce phénomène dans des graphiques qui représentent à nouveau des données dans un espace dimensionnel inférieur (à savoir, l'analyse des correspondances et l'analyse factorielle).
- À quoi correspondrait un «gradient» de façon plus générale (c'est-à-dire dans un contexte non écologique)?
- Si cela se produit avec vos données, s'agit-il d'un "problème" ("problème grave")? Pour quoi?
- Comment interpréter la sortie là où un fer à cheval / une arche apparaît?
- Faut-il appliquer un remède? Quelle? Les transformations des données originales seraient-elles utiles? Et si les données sont des évaluations ordinales?
Les réponses peuvent exister dans d'autres pages de ce site (par exemple, pour PCA , CA et DCA ). J'ai essayé de les résoudre. Mais les discussions sont formulées dans une terminologie écologique et des exemples suffisamment peu connus pour qu'il soit plus difficile de comprendre la question.
la source
Réponses:
Q1
Les écologistes parlent constamment de gradients. Il existe de nombreux types de dégradés, mais il peut être préférable de les considérer comme une combinaison des variables que vous souhaitez ou qui sont importantes pour la réponse. Ainsi, un gradient pourrait être le temps, l'espace, l'acidité du sol ou les nutriments, ou quelque chose de plus complexe, comme une combinaison linéaire d'une gamme de variables requises par la réponse d'une manière ou d'une autre.
Nous parlons de gradients parce que nous observons des espèces dans l'espace ou le temps et une multitude de choses varient avec cet espace ou ce temps.
Q2
Je suis arrivé à la conclusion que dans de nombreux cas, le fer à cheval dans PCA n'est pas un problème grave si vous comprenez comment il se produit et ne faites pas de bêtises comme prendre PC1 lorsque le "gradient" est en fait représenté par PC1 et PC2 (enfin, il est également divisé en PC plus élevés, mais j'espère qu'une représentation 2D est OK).
En Californie, je pense que je pense la même chose (maintenant que j'ai été forcé d'y réfléchir un peu). La solution peut former un arc lorsqu'il n'y a pas de 2ème dimension forte dans les données de telle sorte qu'une version pliée du premier axe, qui satisfait l'exigence d'orthogonalité des axes CA, explique plus "d'inertie" qu'une autre direction dans les données. Cela peut être plus grave, car il s'agit d'une structure composée où, avec l'ACP, l'arc n'est qu'un moyen de représenter les abondances d'espèces sur les sites le long d'un seul gradient dominant.
Je n'ai jamais bien compris pourquoi les gens s'inquiètent tant de la mauvaise commande avec PC1 avec un fer à cheval solide. Je dirais que vous ne devriez pas prendre uniquement PC1 dans de tels cas, et ensuite le problème disparaît; les paires de coordonnées sur PC1 et PC2 éliminent les inversions sur l'un de ces deux axes.
Q3
Si je voyais le fer à cheval dans un biplot PCA, j'interpréterais les données comme ayant un seul gradient dominant ou direction de variation.
Si je voyais l'arche, j'en conclurais probablement la même chose, mais je serais très prudent d'essayer d'expliquer l'axe CA 2 du tout.
Je n'appliquerais pas le DCA - il tord juste l'arc (dans les meilleures circonstances) de sorte que vous ne voyez pas les bizarreries dans les tracés 2D, mais dans de nombreux cas, il produit d'autres structures parasites telles que des diamants ou des formes de trompette au disposition des échantillons dans l'espace DCA. Par exemple:
Nous voyons un éventail typique de points d'échantillonnage vers la gauche de l'intrigue.
Q4
Cela suggérerait de trouver une direction non linéaire dans l'espace à haute dimension des données. L'une de ces méthodes est la courbe principale de Hastie & Stuezel, mais d'autres méthodes non linéaires sont disponibles, ce qui pourrait suffire.
Par exemple, pour certaines données pathologiques
Nous voyons un fer à cheval solide. La courbe principale essaie de récupérer ce gradient sous-jacent ou arrangement / ordre des échantillons via une courbe lisse dans les m dimensions des données. La figure ci-dessous montre comment l'algorithme itératif converge vers quelque chose qui se rapproche du gradient sous-jacent. (Je pense qu'il s'éloigne des données en haut de l'intrigue afin d'être plus proche des données dans des dimensions plus élevées, et en partie à cause du critère d'auto-cohérence pour qu'une courbe soit déclarée courbe principale.)
J'ai plus de détails, y compris le code sur mon article de blog à partir duquel j'ai pris ces images. Mais le point principal ici est que les courbes principales récupèrent facilement l'ordre connu des échantillons, contrairement à PC1 ou PC2 seul.
Dans le cas de l'ACP, il est courant d'appliquer des transformations en écologie. Les transformations populaires sont celles que l'on peut penser renvoyer une certaine distance non euclidienne lorsque la distance euclidienne est calculée sur les données transformées. Par exemple, la distance Hellinger est
Le fer à cheval est connu et étudié depuis longtemps en écologie; une partie de la littérature ancienne (plus un look plus moderne) est
Les principales références des courbes principales sont
Le premier étant une présentation très écologique.
la source