J'ai un jeu de données qui contient à la fois des données continues et catégoriques. J'analyse en utilisant PCA et je me demande s'il est acceptable d'inclure les variables catégoriques dans le cadre de l'analyse. D'après ce que j'ai compris, l'ACP ne peut être appliquée qu'à des variables continues. Est-ce exact? S'il ne peut pas être utilisé pour des données catégoriques, quelles alternatives existent pour leur analyse?
categorical-data
pca
correspondence-analysis
mixed-type-data
Nikolina Icitovic
la source
la source
Réponses:
Bien qu’une ACP appliquée à des données binaires donnerait des résultats comparables à ceux obtenus par une analyse à correspondances multiples (les facteurs et les valeurs propres sont linéairement liés), il existe des techniques plus appropriées pour traiter des types de données mélangés, à savoir l’analyse à facteurs multiples pour des données mélangées disponibles dans le package FactoMineR R (
AFDM()
). Si vos variables peuvent être considérées comme des sous-ensembles structurés d'attributs descriptifs, l' analyse à plusieurs facteurs (MFA()
) est également une option.Le défi des variables catégorielles consiste à trouver un moyen approprié de représenter les distances entre les catégories de variables et les individus dans l’espace factoriel. Pour résoudre ce problème, vous pouvez rechercher une transformation non linéaire de chaque variable, qu'elle soit nominale, ordinale, polynomiale ou numérique, avec une mise à l'échelle optimale. Ceci est bien expliqué dans Méthodes Gifi pour une mise à l'échelle optimale dans R: Les homales de package , et une implémentation est disponible dans les homales de package R correspondantes .
la source
Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysis
ne pouvons-nous pas convertir une variable catégorique nominale (par exemple, avec une cardinalité à N) en une collection de binaires factices (N-1), puis effectuer une PCA sur ces données? (Je crois comprendre qu'il existe des techniques plus appropriées)Une recherche Google "pca pour les variables discrètes" donne cette belle vue d' ensemble de S. Kolenikov (@StasK) et G. Angeles. Pour ajouter à la réponse chl, l’analyse par ordinateur est en réalité une analyse des vecteurs propres de la matrice de covariance. Le problème est donc de savoir comment calculer la matrice "correcte" de covariance. L'une des approches consiste à utiliser la corrélation polychorique .
la source
hetcor()
du paquet polycor ). Pourvu que la matrice VC soit SDP, elle devrait faire le travail - principalement dans l’esprit de l’analyse factorielle. Les variables nominales peuvent être codées factices.Je suggérerais de jeter un coup d'oeil à Linting & Kooij, 2012 " Analyse non linéaire en composantes principales avec CATPCA: un tutoriel ", Journal of Personality Assessment ; 94 (1).
la source
Je n'ai pas encore obtenu le privilège de commenter le message de quelqu'un, j'ajoute donc mon commentaire comme réponse distincte, alors veuillez vous en tenir à moi.
Pour poursuivre ce que @Martin F a commenté, je suis récemment tombé sur les PCA non linéaires. Je cherchais des ACP non linéaires comme alternative possible lorsqu'une variable continue approche de la distribution d'une variable ordinale à mesure que les données se raréfient (il arrive souvent en génétique que la fréquence allélique mineure de la variable devienne de plus en plus basse et que avec un très petit nombre de comptages dans lesquels vous ne pouvez pas vraiment justifier une distribution d'une variable continue et vous devez assouplir les hypothèses de distribution en le transformant en une variable ordinale ou en une variable catégorielle.) La PCA non linéaire peut traiter ces deux conditions mais après discuter avec des maestros statistiques de la faculté de génétique, L'appel de consensus était que les PCA non linéaires ne sont pas beaucoup utilisés et que le comportement de ces PCA n'est pas encore testé de manière approfondie (peut-être qu'ils se référaient uniquement au domaine de la génétique, alors prenez-le avec un grain de sel). En effet c'est une option fascinante. J'espère avoir ajouté 2cents (heureusement pertinents) à la discussion.
la source
Il existe une approche récemment développée à ces problèmes: les modèles généralisés de bas rang .
L'un des articles utilisant cette technique s'appelle même PCA sur un cadre de données .
La PCA peut être posée comme ceci:
la source
PCAmixdata
#Rstats package :L'exemple de la vignette montre les résultats pour la sortie continue et catégorique
la source