Faire une analyse en composantes principales ou une analyse factorielle sur des données binaires

30

J'ai un ensemble de données avec un grand nombre de réponses Oui / Non. Puis- je utiliser les composants principaux (ACP) ou toute autre analyse de réduction des données (comme l'analyse factorielle) pour ce type de données? Veuillez indiquer comment je procède à l'aide de SPSS.

Cathy
la source
1
Qu'est-ce qui vous a poussé à considérer l'APC spécifiquement comme opposé à une analyse discriminante?
Chris Simokat

Réponses:

39

La question des variables dichotomiques ou binaires dans l'ACP ou l'analyse factorielle est éternelle. Il y a des opinions polaires de "c'est illégal" à "c'est bien", à travers quelque chose comme "vous pouvez le faire mais vous obtiendrez trop de facteurs". Mon opinion actuelle est la suivante. Premièrement, je considère que la variable binaire observée est discrète et qu'il est inapproprié de la traiter de quelque façon que ce soit comme continue. Cette variable discrète peut-elle donner naissance à un facteur ou à une composante principale?

  • Analyse factorielle (FA). Le facteur par définition est un latent continu qui charge des variables observables ( 1 , 2 ). Par conséquent, cette dernière ne peut être que continue (ou intervalle, plus concrètement) lorsqu'elle est suffisamment chargée par facteur. De plus, FA, en raison de sa nature de régression linéaire, suppose que la partie restante - non chargée -, appelée uniqness, est continue non plus, et il en résulte que les variables observables doivent être continues même lorsqu'elles sont légèrement chargées. Ainsi, les variables binaires ne peuvent pas se légiférer dans FA. Cependant, il y a au moins deux façons de procéder: (A) Supposons que les dichotomies à mesure que les variables sous-jacentes se durcissent et effectuent l'AF avec des corrélations tétrachoriques - plutôt que Pearson; (B) Supposons que le facteur charge une variable dichotomique non pas linéairement mais logistiquement et effectuons une analyse de caractère latent (aka Théorie de la réponse aux éléments) au lieu de FA linéaire. Lisez plus .

  • Analyse en composantes principales (ACP). Tout en ayant beaucoup en commun avec FA, PCA n'est pas une modélisation mais seulement une méthode résumante. Les composants ne chargent pas les variables dans le même sens conceptuel que les facteurs chargent les variables. Dans PCA, les composants chargent les variables et les variables chargent les composants. Cette symétrie est due au fait que l'ACP en soi n'est qu'une rotation d'axes-variables dans l'espace. Les variables binaires ne fourniront pas une véritable continuité pour un composant par elles-mêmes - car elles ne sont pas continues, mais la pseudocontinuité peut être fournie par l'angle de rotation PCA qui peut apparaître n'importe lequel. Ainsi, dans PCA, et contrairement à FA, vous pouvez obtenir des dimensions apparemment continues (axes tournés) avec des variables purement binaires (axes non tournés) - l'angle est la cause de la continuité1

    (0,0)2

Quelques questions connexes sur FA ou PCA des données binaires: 1 , 2 , 3 , 4 , 5 , 6 . Les réponses peuvent éventuellement exprimer des opinions différentes des miennes.


1entités de niveau - pour les variables comme points ou catégories comme points - leurs coordonnées dans l'espace des axes principaux sont en effet des valeurs d'échelle légitimes. Mais pas pour les points de données (cas de données) des données binaires, - leurs "scores" sont des valeurs pseudo continues: pas une mesure intrinsèque, juste quelques coordonnées de superposition.


21

Exemple de données binaires (juste un cas simple de deux variables):

entrez la description de l'image ici

Les diagrammes de dispersion ci-dessous affichent les points de données un peu tremblants (pour rendre la fréquence) et montrent les axes des composants principaux sous forme de lignes diagonales portant des scores de composants sur eux [ces scores, selon ma revendication, sont des valeurs pseudo continues]. Le graphique de gauche sur chaque image montre l'ACP basée sur des écarts "bruts" par rapport à l'origine, tandis que le graphique de droite illustre l'ACP basée sur des écarts à l'échelle (diagonale = unité).

1) L'ACP traditionnelle place l' (0,0)origine dans la moyenne des données (centroïde). Pour les données binaires, la moyenne n'est pas une valeur de données possible. Il s'agit cependant du centre de gravité physique. L'ACP maximise la variabilité à ce sujet.

(N'oubliez pas non plus que, dans une moyenne et une variance binaires variables, elles sont strictement liées, elles sont, pour ainsi dire, "une chose". l'instance actuelle, signifie que vous empêchez des variables plus équilibrées - ayant une plus grande variance - d'influencer l'ACP plus que ne le font des variables plus asymétriques.)

entrez la description de l'image ici

2) Vous pouvez effectuer l'ACP dans des données non centrées, c'est-à-dire laisser l'origine (0,0)aller à l'emplacement (0,0). Il s'agit de PCA sur X'X/nmatrice MSCP ( ) ou sur matrice de similitude cosinus. PCA maximise la protubérance de l'état sans attribut.

entrez la description de l'image ici

3) Vous pouvez laisser l'origine (0,0)se situer au point de données de la plus petite somme des distances de Manhattan entre elle et tous les autres points de données - L1 médoïde. Medoid, généralement, est considéré comme le point de données le plus "représentatif" ou "typique". Par conséquent, l'ACP maximisera l'atypicité (en plus de la fréquence). Dans nos données, le médoïde L1 est tombé sur (1,0)les coordonnées d'origine.

entrez la description de l'image ici

4) Ou mettez l'origine (0,0)aux coordonnées de données où la fréquence est le mode multivarié le plus élevé. Il s'agit de la (1,1)cellule de données de notre exemple. PCA maximisera (sera piloté par) les modes juniors.

entrez la description de l'image ici

5) Dans le corps de la réponse, il a été mentionné que les corrélations tétrachoriques sont une bonne chose pour effectuer une analyse factorielle, pour les variables binaires. On pourrait dire la même chose de l'APC: vous pouvez faire de l'APC sur la base de corrélations tétrachoriques . Cependant, cela signifie que vous supposez une variable continue sous-jacente dans une variable binaire.

ttnphns
la source
2
À propos de la connexion entre FA sur les éléments binaires et les modèles IRT (1- et 2-PL), voici deux articles qui pourraient être intéressants: Takane & de Leeuw, Sur la relation entre la théorie de la réponse des éléments et l'analyse factorielle des variables discrétisées , Psychometrika ( 1987) 52 (3): 393; et un plus récent, Kamata & Bauer, A Note on the Relation Between Factor Analytic and Item Response Theory Models , SEM (2008) 15: 136.
chl