J'enseigne un cours d'introduction à la géographie économique. Pour aider mes élèves à mieux comprendre les types de pays que l'on trouve dans l'économie mondiale contemporaine et à apprécier les techniques de réduction des données, je veux construire un devoir qui crée une typologie de différents types de pays (par exemple, les pays à revenu élevé et à revenu élevé). valeur ajoutée mfg longue espérance de vie; exportateur de ressources naturelles à revenu élevé espérance de vie moyenne-élevée; l'Allemagne étant un élément du premier type et le Yémen un exemple du deuxième type). Cela utiliserait des données du PNUD accessibles au public (qui, si je me souviens bien, contiennent des données socioéconomiques sur un peu moins de 200 pays; désolé, aucune donnée régionale n'est disponible).
Avant cette affectation, il y en aurait une autre qui leur demanderait (en utilisant les mêmes --- en grande partie des intervalles ou des niveaux de rapport ---) d'examiner les corrélations entre ces mêmes variables.
J'espère qu'ils développeront d'abord une intuition pour les types de relations entre les différentes variables (par exemple, une relation positive entre l'espérance de vie et [divers indicateurs de] richesse; une relation positive entre la richesse et la diversité des exportations). Ensuite, lors de l'utilisation de la technique de réduction des données, les composantes ou facteurs auraient un sens intuitif (par exemple, le facteur / composante 1 saisit l'importance de la richesse; le facteur / composante 2 saisit l'importance de l'éducation).
Étant donné que ce sont des étudiants de deuxième à quatrième année, souvent avec une exposition limitée à la pensée analytique plus généralement, quelle technique de réduction de données unique suggéreriez-vous comme la plus appropriée pour le deuxième devoir? Ce sont des données de population, donc les statistiques inférentielles (p-vlaues, etc.) ne sont pas vraiment nécessaires.
la source
Une note ajoutée rapidement: Quelle que soit la technique que vous utilisez ci-dessus, vous voudrez d'abord vérifier les distributions de vos variables car beaucoup d'entre elles "exigeront" que vous les transformiez d'abord à l'aide d'un logarithme. Cela révélera certaines des relations bien mieux que ne le feraient les variables d'origine.
la source
Vous pouvez utiliser la décomposition CUR comme alternative à l'ACP. Pour la décomposition CUR, vous pouvez vous référer à [1] ou [2]. Dans la décomposition CUR, C représente les colonnes sélectionnées, R représente les lignes sélectionnées et U est la matrice de liaison. Permettez-moi de paraphraser l'intuition derrière la décomposition CUR comme indiqué dans [1];
La bonne chose à propos de CUR est que les colonnes de base sont des colonnes (ou lignes) réelles et mieux à interpréter par opposition à PCA (qui utilise SVD trancré).
L'algorithme donné dans [1] est facile à implémenter et vous pouvez jouer avec lui en modifiant le seuil d'erreur et obtenir un nombre différent de bases.
[1] MW Mahoney et P. Drineas, «Décompositions matricielles CUR pour une meilleure analyse des données», Actes de la National Academy of Sciences des États-Unis d'Amérique, vol. 106, janvier 2009, p. 697-702.
[2] J. Sun, Y. Xie, H. Zhang et C. Faloutsos, «Less is more: Compact matrix decomposition for large sparse graphs», Actes de la septième conférence internationale SIAM sur l'exploration de données, Citeseer, 2007, p . 366.
la source
Selon vos objectifs, la classification des registres sur les groupes peut être mieux réalisée par une méthode de clustering. Pour un nombre relativement restreint de cas, le regroupement hiérarchique est généralement le mieux adapté, au moins dans la phase exploratoire, tandis que pour une solution plus raffinée, vous pourriez envisager un processus itératif comme K-means. Selon le logiciel que vous utilisez, il est également possible d'utiliser un processus, qui est dans SPSS, mais je ne sais pas où d'autre, appelé clustering en deux étapes, qui est rapide, bien qu'opaque, et semble donner de bons résultats.
L'analyse en grappes fournit une solution de classification qui maximise la variance entre les groupes tout en minimisant la variance à l'intérieur desdits groupes. Elle donnera également probablement des résultats plus faciles à interpréter.
la source
Je suggère de regrouper les variables et les observations (séparément) pour faire la lumière sur l'ensemble de données. Le regroupement de variables (par exemple, en utilisant Spearmean comme mesure de similitude comme dans la fonction du package R ) aidera à voir quelles variables "fonctionnent ensemble".ρ2
Hmisc
varclus
la source
Une autre option serait d'utiliser des cartes auto-organisées (SOM). Une idée du logiciel que les étudiants utiliseront? Je sais que R, par exemple, a quelques implémentations SOM. Cependant, les SOM peuvent échouer à votre test "les facteurs des composants ont un sens intuitif". (Pas nécessairement vrai avec PCA non plus ...)
la source