J'ai un ensemble de données de 1000+ échantillons de 19 variables. Mon objectif est de prédire une variable binaire basée sur les 18 autres variables (binaires et continues). Je suis assez confiant que 6 des variables de prédiction sont associées à la réponse binaire, cependant, je voudrais analyser davantage l'ensemble de données et rechercher d'autres associations ou structures qui pourraient me manquer. Pour ce faire, j'ai décidé d'utiliser PCA et le clustering.
Lors de l'exécution de l'ACP sur les données normalisées, il s'avère que 11 composants doivent être conservés afin de conserver 85% de la variance. En traçant les paires, j'obtiens ceci:
Je ne suis pas sûr de la suite ... Je ne vois aucun motif significatif dans le pca et je me demande ce que cela signifie et si cela pourrait avoir été causé par le fait que certaines des variables sont binaires. En exécutant un algorithme de clustering avec 6 clusters, j'obtiens le résultat suivant qui n'est pas exactement une amélioration bien que certains blobs semblent se démarquer (les jaunes).
Comme vous pouvez probablement le constater, je ne suis pas un expert en PCA, mais j'ai vu quelques tutoriels et comment il peut être puissant pour avoir un aperçu des structures dans un espace de grande dimension. Avec le célèbre jeu de données MNIST (ou IRIS), cela fonctionne très bien. Ma question est: que dois-je faire maintenant pour donner plus de sens à l'APC? Le clustering ne semble rien retenir d'utile, comment puis-je savoir qu'il n'y a pas de modèle dans la PCA ou que dois-je essayer ensuite pour trouver des modèles dans les données de la PCA?
Réponses:
Vous avez expliqué que le graphique de variance me dit que l'ACP est inutile ici. 11/18 est 61%, vous avez donc besoin de 61% de vos variables pour expliquer 85% de la variance. Ce n'est pas le cas pour PCA, à mon avis. J'utilise l'ACP lorsque 3 à 5 facteurs sur 18 expliquent environ 95% de la variance.
MISE À JOUR: Regardez le graphique du pourcentage cumulé de variance expliqué par le nombre de PC. Cela provient du champ de modélisation de la structure des termes de taux d'intérêt. Vous voyez comment 3 composantes expliquent plus de 99% de la variance totale. Cela peut ressembler à un exemple inventé pour la publicité PCA :) Cependant, c'est une chose réelle. Les ténors de taux d'intérêt sont tellement corrélés, c'est pourquoi l'APC est très naturel dans cette application. Au lieu de traiter avec quelques dizaines de ténors, vous traitez avec seulement 3 composants.
la source
Si vous avez échantillons et seulement prédicteurs, il serait assez raisonnable d'utiliser simplement tous les prédicteurs dans un modèle. Dans ce cas, une étape PCA peut être inutile.p = 19N>1000 p=19
Si vous êtes convaincu que seul un sous-ensemble de variables est vraiment explicatif, l'utilisation d'un modèle de régression clairsemée, par exemple Elastic Net, pourrait vous aider à établir cela.
De plus, l'interprétation des résultats de l'ACP en utilisant des entrées de type mixte (binaire vs réel, différentes échelles, etc., voir la question CV ici ) n'est pas si simple et vous pouvez l'éviter à moins qu'il y ait une raison claire de le faire.
la source
Je vais interpréter votre question aussi succinctement que possible. Faites-moi savoir si cela change votre sens.
Je ne vois pas non plus de "modèle significatif", à part la cohérence de vos paires de parcelles. Ce ne sont que des taches grossièrement circulaires. Je suis curieux de savoir à quoi vous vous attendiez. Séparez clairement les groupes de points de certaines des paires de parcelles? Quelques parcelles très proches du linéaire?
Vos résultats PCA - les diagrammes de paires bloblike et seulement 85% de la variance capturée dans les 11 principaux composants principaux - n'empêchent pas votre intuition que 6 variables soient suffisantes pour la prédiction de réponse binaire.
Imaginez ces situations:
Supposons que vos résultats PCA montrent que 99% de la variance sont capturés par 6 composantes principales.
Cela pourrait sembler soutenir votre intuition sur 6 variables de prédicteur - peut-être pourriez-vous définir un plan ou une autre surface dans cet espace dimensionnel qui classe très bien les points, et vous pouvez utiliser cette surface comme prédicteur binaire. Ce qui m'amène au numéro 2 ...
Dites que vos 6 principaux composants principaux ont des diagrammes de paires qui ressemblent à ceci
Mais colorions une réponse binaire arbitraire
Même si vous avez réussi à capturer la quasi-totalité (99%) de la variance en 6 variables, vous n'êtes toujours pas assuré d'avoir une séparation spatiale pour prédire votre réponse binaire.
Vous pourriez en fait avoir besoin de plusieurs seuils numériques (qui pourraient être tracés comme des surfaces dans cet espace à 6 dimensions), et l'appartenance d'un point à votre classification binaire pourrait dépendre d'une expression conditionnelle complexe faite de la relation de ce point à chacun de ces seuils. Mais ce n'est qu'un exemple de la façon dont une classe binaire pourrait être prédite. Il existe une tonne de structures de données et de méthodes pour représenter, former et prévoir. Ceci est un teaser. Citer,
la source