Techniques de réduction des dimensions pour les très petits échantillons

8

J'ai 21 variables macroéconomiques et socio-économiques d'attitudes (comme le pourcentage de mères âgées de 24 à 54 ans sans emploi, le pourcentage d'enfants âgés de 3 à 5 ans dans les écoles maternelles, etc.). J'ai également des données sur les proportions de grands-parents qui ont fourni des services de garde intensifs. La plupart des variables socio-économiques que j'ai sélectionnées sont fortement corrélées à la garde d'enfants (par exemple, il existe une corrélation négative entre la proportion de mères employées à temps partiel et la prestation de soins aux grands-parents).

Idéalement, je voudrais créer une typologie de différents types de pays. Mon espoir serait d'utiliser une sorte de technique de réduction des dimensions dont les composantes ou les facteurs auraient un sens intuitif (par exemple les attitudes envers la famille et le sexe, la structure du marché du travail, les politiques familiales). Ou, à défaut, évaluez lequel des 21 indicateurs macroéconomiques explique le mieux la variabilité des services de garde d'enfants d'un pays à l'autre.

Mon principal problème est que je n'ai que 12 pays européens. Je pense que l'ACP et les analyses factorielles ne sont pas des techniques appropriées avec si peu de cas. Ai-je raison? On m'a dit d'essayer d'utiliser une analyse comparative qualitative ou une analyse des correspondances multiples, bien que, à ma connaissance, ces dernières techniques soient plus appropriées pour les indicateurs macroéconomiques binaires (ou catégoriques) (alors que les miens sont des pourcentages ou des variables continues).

Giorgio
la source
2
Parce que vous voulez une typologie, cela ressemble à un problème d'analyse de cluster plutôt qu'à une réduction de dimension. Avec vos données limitées, vous pouvez utiliser cela et quelques graphiques de base pour raconter l'histoire - mais vous êtes presque dans des méthodes de recherche qualitative plutôt que quant ici.
Peter Ellis
Merci. J'ai aussi pensé à l'analyse en grappes bien que le problème d'avoir autant de variables et si peu de cas demeure. Je suppose que je m'en tiendrai alors aux intrigues de base et convaincrai mon patron qu'il n'y a rien de plus excitant à faire (comme je l'ai toujours soupçonné secrètement).
Giorgio
1
Je pense que @PeterEllis a raison sur le genre de chose que vous voulez faire. Cependant, vous pouvez faire PCA et FA sur de petits ensembles de données. Ces deux méthodes dépendent de corrélations et une corrélation est valide, même avec 12 observations. Cependant, les corrélations peuvent ne pas être très bien estimées.
Peter Flom

Réponses:

5

Comme le suggère le commentaire / la réponse de Peter Ellis, vous parlez de réduction de la dimensionnalité et non de réduction des données. Vous avez modifié le nombre de points de données juste la taille de l'espace des covariables. Maintenant, Peter Flom a raison de dire que les méthodes PCA et FA peuvent être essayées avec de petits échantillons, mais ce ne sont pas seulement les corrélations qui seront probablement mal estimées, mais aussi que vous pourriez être dupe de passer à des dimensions trop faibles car les caractéristiques peuvent apparaître plus fortement corrélés qu’ils ne l’auraient été avec un échantillon plus important. Je ne le recommanderais pas.

Michael R. Chernick
la source
1
Merci. Désolé, je voulais dire en effet une réduction de dimension! En outre, je conviens que PCA et FA sont à éviter avec seulement 12 cas.
Giorgio
1
+1 pour avoir souligné que, avec de très petits échantillons, les corrélations d'échantillons sont généralement assez élevées. À titre d'exemple extrême, si , vous avez de très bonnes chances d'obtenir une corrélation presque parfaite. Taper à plusieurs reprises le révélera. De plus, j'ai remarqué que vous avez révisé une modification aujourd'hui - merci d'avoir participé! n=3cor( rnorm(3), rnorm(3) )R
Macro
@Macro et avec n = 2 une corrélation de +1 ou -1 est garantie.
Michael R. Chernick
5

J'irais pour l'analyse de co-inertie, qui est une variante tacite de l' analyse canonique . Cela vous donnerait une combinaison linéaire des 21 variables qui a la co-inertie la plus élevée avec une combinaison linéaire de données sur la garde d'enfants (ou avec la garde d'enfants s'il s'agit d'une seule variable quantitative). L'astuce de travailler avec la co-inertie au lieu de la corrélation est que vous pouvez toujours effectuer les calculs quand il y a plus de variables que d'observations.

Malheureusement, la CIA n'est pas très répandue. Il a été développé pour l'écologie, où il y a généralement plus de variables que de sites d'observation. Vous pouvez trouver des informations techniques dans Dray, Chessel et Thioulouse, Ecology 84 (11), 3078-89, 2003 .

Cela dit, les autres commentaires / réponses ont raison: 12 est un nombre relativement petit et vous devrez vivre avec cela ...

gui11aume
la source