Analyse de cluster suivie d'une analyse discriminante

10

Quelle est la justification, le cas échéant, pour utiliser l'analyse discriminante (DA) sur les résultats d'un algorithme de clustering comme k-means, comme je le vois de temps en temps dans la littérature (essentiellement sur le sous-typage clinique des troubles mentaux)?

Il n'est généralement pas recommandé de tester les différences de groupe sur les variables qui ont été utilisées pendant la construction du cluster car elles prennent en charge la maximisation (resp. Minimisation) de l'inertie inter-classe (resp. Intra-classe). Donc, je ne suis pas sûr d'apprécier pleinement la valeur ajoutée de la DA prédictive, à moins que nous ne cherchions à intégrer les individus dans un espace factoriel de dimension inférieure et à avoir une idée de la «généralisabilité» d'une telle partition. Mais même dans ce cas, l'analyse de cluster reste fondamentalement un outil exploratoire, donc l'utilisation de l'appartenance à une classe calculée de cette façon pour dériver une règle de notation semble étrange à première vue.

Avez-vous des recommandations, des idées ou des pointeurs vers des articles pertinents?

chl
la source
Voici une explication et un exemple en utilisant R: cran.r-project.org/web/packages/adegenet/vignettes/…
Ben

Réponses:

5

Je ne connais aucun document à ce sujet. J'ai utilisé cette approche, à des fins descriptives. DFA fournit un bon moyen de résumer les différences de groupe et la dimensionnalité par rapport aux variables d'origine. On pourrait plus facilement simplement profiler les groupes sur les variables d'origine, cependant, cela perd la nature intrinsèquement multivariée du problème de clustering. DFA vous permet de décrire les groupes tout en conservant intact le caractère multivarié du problème. Ainsi, il peut aider à l'interprétation des grappes, lorsque c'est un objectif. Ceci est particulièrement idéal lorsqu'il existe une relation étroite entre votre méthode de clustering et votre méthode de classification - par exemple, DFA et la méthode de Ward.

Vous avez raison sur le problème des tests. J'ai publié un article utilisant le suivi de l'analyse de cluster avec DFA pour décrire la solution de clustering. J'ai présenté les résultats DFA sans statistiques de test. Un critique a contesté cela. J'ai concédé et mis les statistiques de test et les valeurs de p dedans, avec l'avertissement que ces valeurs de p ne devraient pas être interprétées de la manière traditionnelle.

Brett
la source
Quelles seraient les étapes procédurales de DA après le clustering? Pouvez-vous penser à d'autres techniques pour découvrir quelles variables originales rendent certains clusters différents des autres?
danas.zuokas
Voulez-vous partager la citation de ce document, Brett?
Roman Luštrik
Weissman & Magill. 2008. «Développer une typologie des étudiants pour examiner l'efficacité des séminaires de première année» Journal of The First-Year Experience & Students in Transition 20 (2). Contactez-moi hors ligne si vous voulez une copie papier.
Brett