Regroupement hiérarchique avec des variables catégorielles

11

Les variables catégorielles peuvent-elles être utilisées dans le clustering hiérarchique? J'ai entendu dire que seules des variables continues sont utilisées, mais j'ai vu des gens discuter des variables catégorielles peuvent / peuvent ne pas être utilisés également. Quelqu'un peut-il donner un aperçu?

Windstorm1981
la source
2
Oui bien sûr, les données catégorielles font fréquemment l'objet d'une analyse en grappes, notamment hiérarchique. Il existe de nombreuses mesures de proximité pour les variables binaires (y compris les ensembles fictifs qui sont la litière de variables catégorielles); également des mesures d'entropie. Les groupes de cas seront les combinaisons fréquentes d'attributs, et diverses mesures donnent leur épice spécifique pour le calcul de la fréquence. Un problème avec le regroupement des données catégorielles est la stabilité des solutions. Et cette question récente pose la question de la corrélation variable.
ttnphns
Recherchez sur ce site pour hierarchical clustering categoricallire les discussions connexes.
ttnphns
Copie
Je ne pense pas que ce soit un doublon, exactement. La question liée concerne R, et pourrait même être hors sujet maintenant. Cette question concerne les statistiques et ne mentionne pas de progiciel.
Peter Flom
@ttnphns: voulez-vous publier vos commentaires comme réponse? Mieux vaut avoir une réponse courte que pas de réponse du tout. Quiconque a une meilleure réponse peut la publier.
Stephan Kolassa

Réponses:

3

Oui bien sûr, les données catégorielles font fréquemment l'objet d'une analyse en grappes, notamment hiérarchique. Il existe de nombreuses mesures de proximité pour les variables binaires (y compris les ensembles fictifs qui sont la litière de variables catégorielles); également des mesures d'entropie. Les groupes de cas seront les combinaisons fréquentes d'attributs, et diverses mesures donnent leur épice spécifique pour le calcul de la fréquence. Un problème avec le regroupement des données catégorielles est la stabilité des solutions. Et cette question récente pose la question de la corrélation variable.

mkt - Réintégrer Monica
la source
J'ai copié ce commentaire par @ttnphns en tant que réponse wiki communautaire parce que le commentaire est, plus ou moins, une réponse à cette question. Nous avons un écart dramatique entre les réponses et les questions. Au moins une partie du problème est que certaines questions reçoivent une réponse dans les commentaires: si les commentaires qui ont répondu à la question étaient des réponses à la place, nous aurions moins de questions sans réponse.
mkt