J'exécute une simulation rapide pour comparer différentes méthodes de clustering et je suis actuellement confronté à un problème en essayant d'évaluer les solutions de cluster.
Je connais différentes métriques de validation (beaucoup se trouvent dans cluster.stats () dans R), mais je suppose que celles-ci sont mieux utilisées si le nombre estimé de clusters est réellement égal au nombre réel de clusters. Je souhaite conserver la capacité de mesurer la performance d'une solution de clustering lorsqu'elle ne spécifie pas le nombre correct de clusters dans la simulation d'origine (c.-à-d. La qualité des données d'un modèle de solution à trois clusters simulés pour avoir un cluster à 4 clusters) Solution). Juste pour votre information, les clusters sont simulés pour posséder des matrices de covariance identiques.
Je pensais que la divergence KL entre deux mélanges de gaussiens serait utile à mettre en œuvre, mais aucune solution de forme fermée n'existe ( Hershey et Olson (2007) ) et la mise en œuvre d'une simulation de Monte Carlo commence à être coûteuse en termes de calcul.
Existe-t-il d'autres solutions qui pourraient être faciles à mettre en œuvre (même si ce n'est qu'une approximation)?
Réponses:
Supposons que nous ayons deux mélanges gaussiens dans : Appelons leurs densités et , respectivement, et dénotons les densités de leurs composantes , par , .Rd
P=∑i=1nαiPi=∑i=1nαiN(μi,Σi)Q=∑j=1mβjQj=∑j=1mN(mj,Sj). p(⋅) q(⋅) Pi Qj pi(x)=N(x;μi,Σi) qj(x)=N(x;mj,Sj)
Les distances suivantes sont disponibles sous forme fermée:
L'écart moyen maximum (MMD) avec un noyau RBF gaussien. Il s'agit d'une distance intéressante, pas encore très bien connue de la communauté des statistiques, qui nécessite un peu de mathématiques pour être définie.
Soit définissez l'espace Hilbert comme l'espace Hilbert du noyau reproducteur correspondant à : .k(x,y):=exp(−12σ2∥x−y∥2), H k k(x,y)=⟨φ(x),φ(y)⟩H
Définissez le noyau de carte moyen commeK(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
Le MMD est alorsMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Pour nos mélanges et , notons que et de même pour et .P Q K(P,Q)=∑i,jαiβjK(Pi,Qj) K(P,P) K(Q,Q)
Il s'avère, en utilisant des astuces similaires à celles de , que estL2 K(N(μ,Σ),N(μ′,Σ′)) (2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
Comme , cela converge clairement vers un multiple de la distance . Vous voudriez normalement utiliser un différent , cependant, un à l'échelle de la variation des données.σ→0 L2 σ
Des formes fermées sont également disponibles pour les noyaux polynomiaux dans le MMD; voirk
Pour beaucoup de belles propriétés de cette distance, voir
Divergence quadratique Jensen-Rényi. L' entropie Rényi- est définie comme Sa limite comme est l'entropie de Shannon. La divergence Jensen-Rényi est où désigne un mélange égal entre et . Il s'avère que, lorsque et lorsque et sont des mélanges gaussiens (comme ici), vous pouvez calculer une forme fermée pour . Cela a été fait parα Hα(p)=11−αlog(∫p(x)αdx). α→1 JRα(p,q)=Hα(p+q2)−Hα(p)+Hα(q)2 p+q2 p q α=2 P Q JR2
la source
Si vos clusters ne sont en fait pas des mélanges gaussiens mais qu'ils ont une forme arbitraire, vos résultats peuvent en fait être bien meilleurs lorsque vous produisez beaucoup plus de clusters, puis en fusionnez à nouveau par la suite.
Dans de nombreux cas, on choisit simplement k comme étant arbitrairement élevé, par exemple 1000 pour un grand ensemble de données; en particulier lorsque vous n'êtes pas vraiment intéressé par les modèles, mais que vous souhaitez simplement réduire la complexité de l'ensemble de données via la quantification vectorielle.
la source
Voici une généralisation du Mahalanobis D aux GMM en utilisant la méthode du noyau de Fisher et d'autres techniques:
Tipping, Michael E. "Dérivation des fonctions de distance analytique de cluster à partir de modèles de mélange gaussiens." (1999): 815-820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf
Voir aussi: Existe - t-il une version multi-gaussienne de la distance de Mahalanobis?
la source