J'ai un ensemble de données contenant l'activité de l'utilisateur avec 168 dimensions, où je veux extraire des clusters en utilisant un apprentissage non supervisé. Il n'est pas évident pour moi d'utiliser une approche de modélisation de sujet dans l'allocation de Dirichlet latent (LDA) ou les modèles de mélange gaussiens (GMM), qui sont davantage une approche bayésienne. À cet égard, j'ai deux questions connexes:
Quel est le principal différenciateur entre les deux méthodes? Je connais les bases des deux modèles, mais je suis curieux de savoir ce qui distingue vraiment l'un de l'autre. Quelque chose dans le problème / les données peut-il me dire si un modèle convient mieux?
Si j'applique les deux méthodes à mes données, comment puis-je comparer les résultats pour voir quelle méthode est la meilleure?
Mise à jour
Les 168 variables d'activité des utilisateurs sont des décomptes d'une activité, contenant ainsi des valeurs discrètes positives. Il n'y a pas de valeur maximale, mais environ 90% des variables atteignent des valeurs dans l'intervalle .
Il pourrait être logique de modéliser simplement toutes ces variables d'activité comme des variables binaires décrivant si elles sont nulles ou non nulles, mais nous ne connaissons pas encore suffisamment le problème pour le déterminer. La principale chose que nous recherchons est un aperçu des différents groupes d'activités des utilisateurs.
Réponses:
Je n'utiliserais pas de modèles de mélange gaussiens , car ils exigent que les distributions des constituants soient toutes normales. Vous avez des comptes, donc GMM est inapproprié par définition.
L'allocation de Dirichlet latente (divulgation complète: je ne connais pas vraiment la modélisation de sujet) nécessite que vos données soient multinomiales , mais vous pouvez avoir des décomptes dans ce cas - ce seraient des décomptes d'occurrences de différentes catégories d'une variable. Une autre possibilité est que vos comptes soient des comptes de différentes variables, comme pour avoir plusieurs variables de Poisson . C'est un peu une question ontologique pour savoir comment vous pensez de vos données.
Prenons un exemple simple où je vais à l'épicerie parce que je veux des fruits. J'achèterai un certain nombre de pommes, d'oranges, de pêches et de bananes. Chacun de ceux-ci pourrait être considéré comme une variable de Poisson distincte. Quand je rentre chez moi, je les mets tous dans un bol de fruits. Plus tard, quand j'ai envie de grignoter, je pourrais atteindre le bol sans regarder et attraper deux fruits (par exemple, une pomme et une pêche). Cela peut être considéré comme un tirage d'une distribution multinomiale. Dans les deux cas, j'ai des décomptes de catégories, mais nous les pensons différemment. Dans le premier cas, les fruits que j'achèterai sont connus avant d'arriver à l'épicerie, mais le nombre acheté dans chaque catégorie peut varier. Dans le deuxième cas, je ne sais pas quels fruits je vais cueillir mais je sais que j'en attrape deux parmi les types possibles.
Si vos données ressemblent à l'exemple de la corbeille à fruits, LDA peut vous convenir. D'un autre côté, s'ils ressemblent à l'exemple de l'épicerie, vous pouvez essayer la modélisation du mélange fini de Poisson . Autrement dit, vous pouvez utiliser la modélisation de mélange avec des distributions autres que gaussiennes / normales. Les GMM sont de loin les plus courants; d'autres distributions (comme Poisson) sont plus exotiques. Je ne sais pas à quel point ils sont largement mis en œuvre dans les logiciels. Si vous utilisez R, Google a conduit à la découverte de ? PoisMixClus dans le package HTSCluster et le package rebmix (notez que je n'ai jamais utilisé non plus, ni fait de modélisation de mélange de Poisson). Il peut également être possible de trouver des implémentations pour d'autres logiciels.
Ajout de quelques détails: je dirais que le LDA est au moins autant une technique bayésienne que le GMM.
Je ne voudrais pas dichotomiser vos données en zéro / non nul.
la source