J'enseigne l'algèbre linéaire à une classe d'ingénieurs, de sociologues et de programmeurs informatiques. Nous venons de faire une décomposition en valeurs singulières, et nous avons un jour supplémentaire, alors j'ai pensé parler de la relation entre la décomposition en valeurs singulières et l'analyse en composantes principales. J'ai bien écrit la partie théorique de la conférence, mais j'ai du mal à trouver de bons exemples à utiliser. Voici les contraintes:
Je veux montrer des photos. Idéalement, les graphiques devraient bien fonctionner par eux-mêmes: les axes et les points de données du nuage de points devraient être étiquetés. Les mots anglais sont meilleurs que les noms d'espèces latines.
La question à l'étude devrait être intéressante. La morphologie des poissons nigérians, bien qu'importante, n'est pas un bon moyen d'attirer l'attention d'une classe.
Contrairement au point précédent: Rien sur les différences raciales humaines; rien sur les tests d'intelligence. Cela mènerait à une discussion animée qui n'aurait rien à voir avec les techniques mathématiques.
La méthode d'analyse mathématique doit être fondamentalement pure PCA. Le projet DW-NOMINATE, bien qu'impressionnant, utilise PCA comme point de départ, suivi d'un algorithme d'escalade beaucoup plus compliqué.
Je pense que ce serait facile. Je peux facilement penser à une douzaine de projets d'analyse amusants que je pourrais faire si j'avais le temps de rassembler les données: prenez les sondages de Pew Research et voyez si PCA récupère l'axe politique sociale / politique fiscale bien-aimé des libertaires. Prenez une douzaine de mesures des caractéristiques physiques typiques d'une race de chien et voyez si PCA peut trouver la grappe "chien de berger". Etcetera, etcetera ... Je cherche quelqu'un d'autre qui a déjà fait le travail pour que je puisse le montrer.
J'ai bien peur que le calendrier ici soit assez serré: je donne des cours demain après-midi (lundi). J'ai passé la majeure partie du week-end à faire des recherches sur PCA dans différents domaines intéressants et à découvrir encore et encore qu'elles n'étaient pas adaptées.
Réponses:
Il y a quelques guides étape par étape dans les notes de Shalizi ici: http://www.stat.cmu.edu/~cshalizi/uADA/12/lectures/ch18.pdf , l'un étant l'ensemble de données de voitures de R et l'autre étant articles d'art et de musique du New York Times. (La déduction du sujet d'un article à partir des mots qu'il contient est un domaine de recherche très actif.) Si vous ne savez pas / ne voulez pas apprendre le R, vous pouvez toujours utiliser ses notes et ses graphiques.
Edit: j'ai oublié de dire qu'il y a aussi plusieurs bons exemples dans un livre d'Everitt et Hothorn, qui est disponible sur SpringerLink. Si je me souviens bien, un ensemble de données concerne les chasseurs à réaction et il y a aussi la poterie romaine.
la source
Je sais qu'il est trop tard pour votre conférence, mais voici un exemple utilisant des données de décathlon olympique que j'ai trouvé très utile lors de l'apprentissage de l'APC. Quelques rédactions basées sur R: http://factominer.free.fr/classical-methods/principal-components-analysis.html http://www.math.vu.nl/sto/onderwijs/multivar/ College2.pdf
la source