Je sais que k-means est généralement optimisé à l'aide de la maximisation des attentes . Cependant, nous pourrions optimiser sa fonction de perte de la même manière que nous optimisons les autres!
J'ai trouvé des articles qui utilisent réellement la descente de gradient stochastique pour les moyennes k à grande échelle, mais je n'ai pas pu obtenir de réponse à ma question.
Alors, quelqu'un sait pourquoi? Est-ce parce que la maximisation des attentes converge plus rapidement ? A-t-il une garantie particulière? Ou est-ce une raison historique ?
Réponses:
Comme l'OP le mentionne, il est possible de résoudre les k-moyennes en utilisant la descente de gradient, ce qui peut être utile dans le cas de problèmes à grande échelle.
Il existe certainement des raisons historiques pour la prévalence des algorithmes de style EM pour résoudre les k-moyennes (c'est-à-dire l'algorithme de Lloyd). L'algorithme de Lloyd est si populaire que les gens l'appellent parfois «l'algorithme k-means», et peuvent même ignorer qu'il existe d'autres approches. Mais cette popularité n'est pas imméritée.
Bottou et Bengio (1995) ont montré que l'algorithme de Lloyd équivaut à optimiser la fonction de coût k-moyennes en utilisant la méthode de Newton. Dans les problèmes d'optimisation généraux, les méthodes de second ordre comme la méthode de Newton peuvent converger plus rapidement que les méthodes de premier ordre comme la descente de gradient car elles exploitent les informations sur la courbure de la fonction objectif (et pas les méthodes de premier ordre). Dans une expérience sur le célèbre ensemble de données Iris, ils ont montré que l'algorithme de Lloyd convergeait en effet plus rapidement que la descente de gradient. Il serait intéressant de voir cette comparaison sur une plus grande variété d'ensembles de données.
Les références:
Bottou et Bengio (1995) . Propriétés de convergence des algorithmes k-means.
la source
Le clustering K-means n'est pas supervisé, et la technique non supervisée la plus proche qui utilise EM est le clustering basé sur un modèle (modèles de mélange gaussiens, GMM). Un problème gênant avec le clustering basé sur un modèle GMM se produit lorsque de nombreuses fonctionnalités sont corrélées, ce qui provoque une quasi-singularité dans la matrice de covariance (corrélation) basée sur les fonctionnalités. Dans cette situation, la fonction de vraisemblance devient instable, les indices de condition atteignant l'infini, entraînant la rupture complète de GMM.
Ainsi, abandonnez l'idée de EM et kNN - car elle est basée sur des matrices de covariance (corrélation) pour une analyse non supervisée. Votre demande d'optimisation ressemble étroitement à la cartographie de Sammon et à l'échelle multidimensionnelle métrique et non métrique (MDS) classique. La cartographie des saumons est basée sur des dérivatifs-itératifs, tandis que diverses formes de MDS sont généralement des compositions d'itérations ou des étapes uniques, qui peuvent néanmoins être optimisées lors d'une opération matricielle en une étape.
En repensant à votre demande: la réponse est: cela a déjà été fait dans la cartographie Sammon.
la source