J'ai un ensemble de données nominalement en 16 dimensions. J'ai environ 100 échantillons dans un cas et environ 20 000 dans un autre. Sur la base de diverses analyses exploratoires que j'ai menées à l'aide de PCA et de cartes thermiques, je suis convaincu que la véritable dimensionnalité (c'est-à-dire le nombre de dimensions nécessaires pour capturer la plupart du "signal") est d'environ 4. Je veux créer une diapositive pour cet effet pour une présentation. La «sagesse conventionnelle» à propos de ces données, que je cherche à réfuter, est que la véritable dimensionnalité est un ou deux.
Qu'est-ce qu'une bonne visualisation simple pour montrer la véritable dimensionnalité d'un ensemble de données? De préférence, il devrait être compréhensible pour les personnes qui ont des antécédents en statistique mais qui ne sont pas de "vrais" statisticiens.
Réponses:
Une approche standard consisterait à faire de l'ACP, puis à montrer un tracé d'éboulis, que vous devriez être en mesure d'extraire de tout logiciel que vous pourriez choisir. Un peu de bricolage et vous pourriez le rendre plus interprétable pour votre public si nécessaire. Parfois, ils peuvent être convaincants, mais souvent ils sont ambigus et il y a toujours de la place pour chicaner sur la façon de les lire afin qu'un complot d'éboulis puisse (éditer: non!) Être idéal. Ça vaut le coup d'oeil cependant.
la source
psych
implémente les deux avec des graphiques de type éboulis (voirfa.parallel()
etVSS()
). Le papier est "Comparaison de cinq règles pour déterminer le nombre de composants à conserver."Une façon de visualiser cela serait la suivante:
Si les données sont vraiment dimensions, le tracé doit ressembler à une ligne plate.≤2
En Matlab (esquivant toutes les chaussures lancées):
Cela génère le nuage de points suivant:
Si vous passez
lat_d
à 4, la ligne est moins plate.la source
J'ai fait de même en utilisant PROC Varclus dans SAS. L'idée de base est de générer une solution à 4 clusters, de sélectionner la variable corrélée la plus élevée avec chaque cluster, puis de démontrer que cette solution à 4 clusters explique plus la variation que la solution à deux clusters. Pour la solution à 2 clusters, vous pouvez utiliser Varclus ou les 2 premiers composants principaux, mais j'aime Varclus car tout est expliqué par des variables et non par les composants. Il y a un varclus dans R, mais je ne sais pas s'il fait la même chose.
-Ralph Winters
la source