J'ai 21 variables macroéconomiques et socio-économiques d'attitudes (comme le pourcentage de mères âgées de 24 à 54 ans sans emploi, le pourcentage d'enfants âgés de 3 à 5 ans dans les écoles maternelles, etc.). J'ai également des données sur les proportions de grands-parents qui ont fourni des services de garde intensifs. La plupart des variables socio-économiques que j'ai sélectionnées sont fortement corrélées à la garde d'enfants (par exemple, il existe une corrélation négative entre la proportion de mères employées à temps partiel et la prestation de soins aux grands-parents).
Idéalement, je voudrais créer une typologie de différents types de pays. Mon espoir serait d'utiliser une sorte de technique de réduction des dimensions dont les composantes ou les facteurs auraient un sens intuitif (par exemple les attitudes envers la famille et le sexe, la structure du marché du travail, les politiques familiales). Ou, à défaut, évaluez lequel des 21 indicateurs macroéconomiques explique le mieux la variabilité des services de garde d'enfants d'un pays à l'autre.
Mon principal problème est que je n'ai que 12 pays européens. Je pense que l'ACP et les analyses factorielles ne sont pas des techniques appropriées avec si peu de cas. Ai-je raison? On m'a dit d'essayer d'utiliser une analyse comparative qualitative ou une analyse des correspondances multiples, bien que, à ma connaissance, ces dernières techniques soient plus appropriées pour les indicateurs macroéconomiques binaires (ou catégoriques) (alors que les miens sont des pourcentages ou des variables continues).
Réponses:
Comme le suggère le commentaire / la réponse de Peter Ellis, vous parlez de réduction de la dimensionnalité et non de réduction des données. Vous avez modifié le nombre de points de données juste la taille de l'espace des covariables. Maintenant, Peter Flom a raison de dire que les méthodes PCA et FA peuvent être essayées avec de petits échantillons, mais ce ne sont pas seulement les corrélations qui seront probablement mal estimées, mais aussi que vous pourriez être dupe de passer à des dimensions trop faibles car les caractéristiques peuvent apparaître plus fortement corrélés qu’ils ne l’auraient été avec un échantillon plus important. Je ne le recommanderais pas.
la source
cor( rnorm(3), rnorm(3) )
R
J'irais pour l'analyse de co-inertie, qui est une variante tacite de l' analyse canonique . Cela vous donnerait une combinaison linéaire des 21 variables qui a la co-inertie la plus élevée avec une combinaison linéaire de données sur la garde d'enfants (ou avec la garde d'enfants s'il s'agit d'une seule variable quantitative). L'astuce de travailler avec la co-inertie au lieu de la corrélation est que vous pouvez toujours effectuer les calculs quand il y a plus de variables que d'observations.
Malheureusement, la CIA n'est pas très répandue. Il a été développé pour l'écologie, où il y a généralement plus de variables que de sites d'observation. Vous pouvez trouver des informations techniques dans Dray, Chessel et Thioulouse, Ecology 84 (11), 3078-89, 2003 .
Cela dit, les autres commentaires / réponses ont raison: 12 est un nombre relativement petit et vous devrez vivre avec cela ...
la source
Une analyse factorielle exploratoire régularisée a été conçue en tenant compte de ce problème. Les auteurs disposent du code Matlab.
la source