J'ai étudié des algorithmes permettant de regrouper des données (apprentissage non supervisé): EM et k-means. Je continue à lire ce qui suit:
k-means est une variante de EM, avec l'hypothèse que les grappes sont sphériques.
Quelqu'un peut-il expliquer la phrase ci-dessus? Je ne comprends pas ce que signifie sphérique, ni comment sont liés kmeans et EM, car l’une effectue une assignation probabiliste et l’autre d’une manière déterministe.
Aussi, dans quelle situation vaut-il mieux utiliser la classification en k-means? ou utiliser le clustering EM?
Réponses:
K signifie
EM
la source
Il n'y a pas "d'algorithme de k-moyennes". Il y a l'algorithme MacQueens pour k-means, l'algorithme Lloyd / Forgy pour k-means, la méthode Hartigan-Wong, ...
Il n'y a pas non plus "l'algorithme EM". Il s’agit d’un schéma général qui consiste à s’attendre de manière répétée aux probabilités, puis à maximiser le modèle. La variante la plus populaire de l'EM est également connue sous le nom de «modélisation de mélange gaussien» (GMM), où le modèle est constitué de distributions gaussiennes à plusieurs variables.
L'algorithme de Lloyds peut être composé de deux étapes:
Comme le fait Lloyd, itérer ces deux étapes en fait un exemple du schéma général de la SE. Il diffère de GMM que:
la source
Voici un exemple, si je le faisais avec mplus, ce qui pourrait être utile et compléter des réponses plus complètes:
Disons que j'ai 3 variables continues et que je veux identifier les grappes basées sur celles-ci. Je spécifierais un modèle de mélange (plus spécifiquement dans ce cas, un modèle de profil latent), en supposant une indépendance conditionnelle (les variables observées sont indépendantes, compte tenu de l'appartenance à un cluster) comme:
J'exécutais ce modèle plusieurs fois, en spécifiant à chaque fois un nombre différent de clusters et en choisissant la solution qui me plaisait le plus (pour cela, il s'agit d'un vaste sujet en soi).
Pour ensuite exécuter k-means, je spécifierais le modèle suivant:
Ainsi, l'appartenance à une classe est uniquement basée sur la distance à la moyenne des variables observées. Comme indiqué dans d'autres réponses, les écarts n'ont rien à voir avec cela.
La bonne chose à faire avec mplus est que ce sont des modèles imbriqués, ce qui vous permet de vérifier directement si les contraintes entraînent un ajustement plus difficile ou non, en plus de pouvoir comparer la discordance de classification entre les deux méthodes. Soit dit en passant, ces deux modèles peuvent être estimés à l'aide d'un algorithme EM. La différence réside donc davantage dans le modèle.
Si vous pensez en 3D, les 3 moyens font un point ... et les variances les trois axes d'un ellipsoïde passant par ce point. Si les trois variations sont identiques, vous obtiendrez une sphère.
la source