L'ACP (linéaire) traditionnelle et l'analyse factorielle nécessitent des données au niveau de l'échelle (intervalle ou rapport). Souvent, les données de notation de type likert sont supposées être au niveau de l'échelle, car ces données sont plus faciles à analyser. Et la décision est parfois justifiée statistiquement, surtout lorsque le nombre de catégories ordonnées est supérieur à 5 ou 6. (Quoique purement logique, la question du type de données et du nombre de niveaux d'échelle soit distincte.)
Et si vous préférez traiter l'échelle de Likert polytomique comme ordinale? Ou vous avez des données dichotomiques? Est-il possible de faire une analyse factorielle exploratoire ou une ACP pour eux?
Il existe actuellement trois approches principales pour effectuer FA (y compris PCA comme cas spécial) sur des variables ordinales ou binaires catégorielles (lire également ce compte rendu sur le cas de données binaires et cette considération sur ce qui pourrait être fait avec l'échelle ordinale).
Approche de mise à l'échelle optimale (une famille d' applications ). Également appelé PCA catégorique (CatPCA) ou FA non linéaire. Dans CatPCA, les variables ordinales sont transformées de façon monotone ("quantifiées") en leurs versions d'intervalle "sous-jacentes" dans le but de maximiser la variance expliquée par le nombre sélectionné de composants principaux extraits de ces données d'intervalle. Ce qui rend la méthode ouvertement axée sur les objectifs (plutôt que sur la théorie) et importante pour décider à l'avance du nombre de composants principaux. Si une véritable FA est nécessaire au lieu de la PCA, la FA linéaire habituelle peut alors naturellement être effectuée sur les variables transformées sorties de CatPCA. Avec les variables binaires, CatPCA (malheureusement?) Se comporte à la manière de la PCA habituelle, c'est-à-dire comme s'il s'agissait de variables continues. CatPCA accepte également les variables nominales et tout mélange de types de variables (sympa).
Approche des variables sous-jacentes inférées . Également connu sous le nom de PCA / FA effectué sur des corrélations tétrachoriques (pour les données binaires) ou polychoriques (pour les données ordinales). La distribution normale est supposée pour la variable continue sous-jacente (puis groupée) pour chaque variable manifeste. Ensuite, l'AF classique est appliquée pour analyser les corrélations susmentionnées. L'approche permet facilement un mélange de données d'intervalle, ordinales et binaires. L'un des inconvénients de cette approche est que - en inférant les corrélations - elle n'a aucun indice sur la distribution multivariée des variables sous-jacentes, - peut "concevoir" tout au plus des distributions bivariées et ne se base donc pas sur des informations complètes.
Approche de la théorie de la réponse à l'item (IRT). Parfois aussi appelé FA logistique ou analyse des caractères latents . Un modèle très proche du modèle logit binaire (pour les données binaires) ou des cotes logarithmiques proportionnelles (pour les données ordinales) est appliqué. L'algorithme n'est pas lié à la décomposition d'une matrice de corrélation, il est donc un peu éloigné de l'AF traditionnelle, mais il s'agit toujours d'une FA catégorique authentique. Les «paramètres de discrimination» correspondent étroitement aux charges de FA, mais les «difficultés» remplacent la notion d '«unicité» des FA. La certitude de l'ajustement IRT diminue rapidement à mesure que le nombre de facteurs augmente, ce qui est un aspect problématique de cette approche. L'IRT est extensible à sa manière pour incorporer des variables mixtes intervalle + binaire + ordinal et éventuellement nominales.
Les scores factoriels dans les approches (2) et (3) sont plus difficiles à estimer que les scores factoriels dans l'AF classique ou dans l'approche (1). Cependant, plusieurs méthodes existent (méthodes attendues ou maximales aposteriori, méthode du maximum de vraisemblance, etc.).
Les hypothèses du modèle d' analyse factorielle sont principalement les mêmes dans les trois approches que dans l'AF traditionnelle. L'approche (1) est disponible en R, SPSS, SAS (à mon avis). Les approches (2) et (3) sont implémentées principalement dans des packages de variables latentes spécialisées - Mplus, LISREL, EQS.
Approche polynomiale. Cela n'a pas encore été entièrement développé. Les composants principaux peuvent être modélisés sous forme de combinaisons polynomiales de variables (l' utilisation de polynômes est un moyen populaire de modéliser les effets non linéaires des régresseurs ordinaux). De même, les catégories observées peuvent à leur tour être modélisées comme des manifestations discrètes de combinaisons polynomiales de facteurs latents.
Il existe un champ florissant de techniques non linéaires de réduction de dimensionnalité; certains d'entre eux peuvent être appliqués ou adoptés pour travailler avec des données catégorielles (en particulier binaires ou après binarisation dans un jeu de données clairsemé de grande dimension).
r
Regardez aussi dans ceci , ceci , ceci , ceci , ceci , ceci , ceci , ceci .