J'ai utilisé randomForest pour classer 6 comportements d'animaux (par exemple, debout, marcher, nager, etc.) en fonction de 8 variables (différentes postures corporelles et mouvements).
Le MDSplot dans le package randomForest me donne cette sortie et j'ai des problèmes pour interpréter le résultat. J'ai fait un PCA sur les mêmes données et j'ai déjà une bonne séparation entre toutes les classes de PC1 et PC2, mais ici Dim1 et Dim2 semblent séparer juste 3 comportements. Est-ce à dire que ces trois comportements sont les plus différents de tous les autres comportements (donc MDS essaie de trouver la plus grande dissemblance entre les variables, mais pas nécessairement toutes les variables dans la première étape)? Qu'est-ce que le positionnement des trois clusters (comme par exemple dans Dim1 et Dim2) indique? Étant donné que je suis plutôt nouveau sur RI, j'ai également des problèmes pour tracer une légende sur cette intrigue (mais j'ai une idée de la signification des différentes couleurs), mais peut-être que quelqu'un pourrait aider? Merci beaucoup!!
J'ajoute un tracé fait avec la fonction ClassCenter dans RandomForest. Cette fonction utilise également la matrice de proximité (identique à celle du tracé MDS) pour tracer les prototypes. Mais juste en regardant les points de données pour les six comportements différents, je ne comprends pas pourquoi la matrice de proximité tracerait mes prototypes comme elle le fait. J'ai également essayé la fonction classcenter avec les données de l'iris et cela fonctionne. Mais il semble que cela ne fonctionne pas pour mes données ...
Voici le code que j'ai utilisé pour ce complot
be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE)
class1 <- classCenter(be[,-1], be[,1], be.rf$prox)
Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))])
points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange"))
Ma colonne de classe est la première, suivie de 8 prédicteurs. J'ai tracé deux des meilleures variables prédictives comme x et y.