Je souhaite réduire la dimensionnalité des systèmes d'ordre supérieur et capturer l'essentiel de la covariance sur un champ de préférence à 2 dimensions ou à 1 dimension. Je comprends que cela peut être fait via l’analyse en composantes principales et j’ai utilisé PCA dans de nombreux scénarios. Cependant, je ne l'ai jamais utilisé avec des types de données booléens et je me demandais s'il était utile de réaliser une analyse PCA avec cet ensemble. Ainsi, par exemple, supposez que j'ai des métriques qualitatives ou descriptives, et j'attribue un "1" si cette métrique est valide pour cette dimension, et un "0" si ce n'est pas le cas (données binaires). Ainsi, par exemple, supposez que vous essayez de comparer les Sept Nains dans Blanche-Neige. On a:
Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy et Happy, et vous voulez les arranger en fonction de vos qualités et vous l'avez fait tel quel:
Ainsi, par exemple, Bashful est intolérant au lactose et non inscrit au tableau d'honneur A. Ceci est une matrice purement hypothétique, et ma vraie matrice aura beaucoup plus de colonnes descriptives. Ma question est la suivante: serait-il toujours approprié d’utiliser PCA sur cette matrice pour trouver la similitude entre les individus?
la source
a means of finding the similarity between individuals
. Mais cette tâche est destinée à une analyse de cluster, pas à la PCA.Réponses:
Je voudrais vous suggérer une technique relativement récente pour l'extraction automatique de structure à partir de données de variable catégorielle (y compris binaire). La méthode s'appelle CorEx de Greg van Steeg de l'Université de Californie du Sud. L'idée est d'utiliser la notion de corrélation totale basée sur les mesures d'entropie. Il est attrayant en raison de sa simplicité et de l’absence de réglage d’un grand nombre d’hyperparamètres.
Le document sur les représentations hiérarchiques (le plus récent, construit sur le dessus des mesures précédentes). http://arxiv.org/pdf/1410.7404.pdf
la source
Vous pouvez également utiliser l'analyse des correspondances multiples (MCA), extension de l'analyse en composantes principales lorsque les variables à analyser sont catégoriques au lieu d'être quantitatives (ce qui est le cas ici avec vos variables binaires). Voir par exemple Husson et al. (2010) ou Abdi et Valentin (2007) . FactoMineR est un excellent progiciel R permettant d'effectuer des MCA (et une mise en cluster hiérarchique sur des PC) .
la source
inflation of the feature space
et pourquoi il se produirait dans PCA et non dans MCA.inflation of the feature space
phénomène. Cela semble entrer en jeu lors du passage de CA à MCA, mais ce n’est pas un problème inhérent à la PCA. Je vais retirer ma réponse lorsque vous aurez lu ce commentaire. Merci de me l'avoir fait comprendre.Si vous considérez l’ACP comme une technique exploratoire pour vous donner un moyen de visualiser les relations entre les variables (et à mon avis, c’est le seul moyen d’y réfléchir), alors oui, il n’ya aucune raison pour que vous ne puissiez pas mettre en binaire variables. Par exemple, voici un biplot de vos données
Cela semble raisonnablement utile. Par exemple, vous pouvez voir que Doc et Bashful sont très similaires; que les ressources humaines sont assez différentes des trois autres variables; Sleepy et Sneezy sont très différents, etc.
la source