Regroupement de données comportant un mélange de variables continues et catégorielles

8

J'ai des données qui représentent un aspect du comportement humain. Je veux le regrouper (sans surveillance) en profils comportementaux d'une certaine sorte. maintenant, certaines de mes variables sont catégoriques (avec 2 catégories ou plus), et certaines sont continues (la plupart sont des pourcentages). Quelques variables sont encore plus complexes dans la mesure où une catégorie est plus continue et l'autre n'a pas de telles données supplémentaires.

Ma question est de savoir comment classer ces données. Quelles sont les approches (courantes?) Pour y faire face?

Je n'ai pas besoin de code ou de quoi que ce soit, mais plutôt de références ou de directives qui m'aideront à mieux comprendre comment relever ce défi.

Si vous connaissez des Rfonctions qui facilitent une telle analyse, ce serait bien, mais ce n'est pas nécessaire.

Merci.

amit
la source
2
La mesure de similarité de Gower peut prendre simultanément des données nominales continues, ordinales, binaires. Vous pouvez utiliser des méthodes de regroupement telles que hiérarchiques ou médoïdes pour analyser la matrice de proximité. Peu d'autres méthodes de clustering (par exemple le cluster TwoStep) peuvent prendre des variables continues et nominales à la fois.
ttnphns
En ce qui concerne les pourcentages ou les dénombrements, parfois des mesures chi carré spéciales sont calculées pour eux, et parfois la distance euclidienne habituelle, comme pour les données continues, est utilisée.
ttnphns
4
Dans l'ensemble, le clustering de données de type mixte est une chose délicate et pourrait être réservé à un analyste de données expérimenté, peut-être. D'un autre côté, le regroupement de ces données n'est souvent pas une bonne idée du tout, car il y a des problèmes de normalisation, d'interprétation et d'analyse de la contribution des fonctionnalités.
ttnphns

Réponses:

1
  1. Passez beaucoup de temps à comprendre la similitude de vos données.
  2. Formalisez votre notion de similitude dans une mesure de similarité spécialisée, conçue pour votre ensemble de données particulier (vous ne pourrez probablement pas utiliser une similitude prête à l'emploi).
  3. Utilisez un algorithme de clustering qui peut utiliser des similitudes arbitraires, telles que le clustering hiérarchique, DBSCAN, la propagation d'affinité ou le clustering spectral.
A QUIT - Anony-Mousse
la source