J'ai un ensemble de données de variables discrètes (ordinales, méristiques et nominales) décrivant les caractères morphologiques des ailes de plusieurs espèces d'insectes étroitement apparentées. Ce que je cherche à faire, c'est de mener une sorte d'analyse qui me donnerait une représentation visuelle de la similitude des différentes espèces en fonction des caractéristiques morphologiques. La première chose qui m'est venue à l'esprit était PCA (c'est le type de visualisation que je cherche à créer), mais après y avoir étudié (en particulier d'autres questions telles que: l' analyse des composants principaux peut-elle être appliquée à des ensembles de données contenant un mélange de et variables catégoriques?), il semble que l'ACP soit inappropriée pour des données discrètes (l'ACP est utilisée dans ces types d'études dans la littérature, mais toujours avec des données continues). Ignorant le contexte statistique de la raison pour laquelle ces données sont inappropriées, l'ACP me donne des résultats relativement parfaits en ce qui concerne ma question biologique (les groupes hybrides d'intérêt se situent au milieu de leurs groupes paternels).
J'ai également essayé plusieurs analyses de correspondance pour apaiser les statistiques (du moins pour autant que je sache), mais je n'arrive pas à obtenir un graphique similaire à celui que j'obtiendrais avec l'ACP, où mes observations (les individus biologiques) sont séparés disons par couleur pour montrer les différents groupements (différentes espèces, biologiquement parlant). Il semble que cette analyse vise à décrire comment les variables (ici, mes caractéristiques morphologiques) sont liées les unes aux autres, pas les observations individuelles. Et lorsque je trace des observations colorées par groupe, je n'obtiens qu'une seule valeur (peut-être une moyenne) décrivant l'ensemble des individus. J'ai fait l'analyse en R, donc peut-être que je ne suis pas assez averti pour que mon idée de l'intrigue fonctionne.
Ai-je raison d'essayer ce type d'analyse avec mes données, ou suis-je loin de la piste? Si vous ne pouviez pas le dire, mon expertise statistique est limitée, donc les équations qui se produisent sous ces analyses sont bien au-dessus de ma tête. J'essaie de mener cette analyse de manière complètement descriptive (je n'ai pas besoin de faire plus de calculs en aval), et j'ai lu que si c'est le cas, l'ACP suffira, mais je veux m'assurer que je ne suis pas violant trop d'hypothèses statistiques.
Réponses:
Cela dépend un peu de votre objectif, mais si vous recherchez un outil de visualisation, il est judicieux d'appliquer une mise à l'échelle multidimensionnelle à la sortie de la proximité de forêt aléatoire qui peut produire de jolies images et fonctionnera pour un mélange de données catégoriques et continues. Ici, vous classeriez les espèces selon vos prédicteurs. Mais - et c'est une grosse mise en garde - je ne sais pas si quelqu'un sait vraiment ce que signifie la sortie de ces visualisations.
Une autre alternative pourrait être d'appliquer une mise à l'échelle multidimensionnelle à quelque chose comme la similitude de Gower.
Il y a une question pendante - quel est votre but ultime? A quelle question voulez-vous répondre? J'aime ces techniques comme outils d'exploration pour peut-être vous amener à poser des questions plus nombreuses et meilleures, mais je ne suis pas sûr de ce qu'elles expliquent ou vous disent par elles-mêmes.
Je lis peut-être trop votre question, mais si vous voulez explorer quelles variables prédictives ont les valeurs des hybrides entre les deux espèces pures, vous feriez mieux de construire un modèle pour estimer les valeurs des variables prédictives qui conduisent directement aux espèces et aux hybrides. Si vous souhaitez mesurer la façon dont les variables sont liées les unes aux autres, créez peut-être une matrice de corrélation - et il existe de nombreuses visualisations soignées pour cela.
la source