Je sais que cette question n'est pas bien définie, mais certains clusters ont tendance à être elliptiques ou se situent dans un espace dimensionnel inférieur tandis que les autres ont des formes non linéaires (dans les exemples 2D ou 3D).
Existe-t-il une mesure de non-linéarité (ou "forme") des grappes?
Notez que dans l'espace 2D et 3D, ce n'est pas un problème de voir la forme d'un cluster, mais dans les espaces de dimension supérieure, il est difficile de dire quelque chose sur la forme. En particulier, existe-t-il des mesures de la conformation du cluster convexe?
J'ai été inspiré pour cette question par de nombreuses autres questions de regroupement où les gens parlent de clusters mais que personne ne peut les voir (dans les espaces de dimension supérieure). De plus, je sais qu'il existe des mesures de non-linéarité pour les courbes 2D.
la source
Réponses:
J'aime les modèles Gaussian Mixture (GMM).
L'une de leurs caractéristiques est que, dans le domaine probit , ils agissent comme des interpolateurs par morceaux. Une implication de ceci est qu'ils peuvent agir comme une base de remplacement, un approximateur universel. Cela signifie que pour les distributions non gaussiennes, comme celles lognormales, weibull ou plus folles non analytiques, tant que certains critères sont remplis - le GMM peut approximer la distribution.
Donc, si vous connaissez les paramètres de l'approximation optimale AICc ou BIC à l'aide de GMM, vous pouvez projeter cela à des dimensions plus petites. Vous pouvez le faire pivoter et regarder les axes principaux des composants du GMM approximatif.
La conséquence serait une manière informative et visuellement accessible de regarder les parties les plus importantes des données de dimension supérieure en utilisant notre perception visuelle de visualisation 3D.
EDIT: (bien sûr, whuber)
Il existe plusieurs façons de regarder la forme.
ÉDITER:
Que signifie la forme? Ils disent que la spécificité est l'âme de toute bonne communication. Que voulez-vous dire par «mesure»?
Des idées sur ce que cela peut signifier:
La plupart des "plusieurs façons" sont une variante de celles-ci.
la source
Cela peut être assez simpliste, mais vous pouvez obtenir un aperçu en effectuant une analyse des valeurs propres sur chacun de vos clusters.
Ce que j'essaierais, c'est de prendre tous les points attribués à un cluster et de les ajuster avec une gaussienne multivariée. Ensuite, vous pouvez calculer les valeurs propres de la matrice de covariance ajustée et les tracer. Il existe plusieurs façons de procéder; peut-être la plus connue et la plus utilisée est appelée analyse en composantes principales ou ACP .
Une fois que vous avez les valeurs propres (également appelées spectre), vous pouvez examiner leurs tailles relatives pour déterminer comment "étiré" le cluster est dans certaines dimensions. Moins le spectre est uniforme, plus l'amas est "en forme de cigare" et plus le spectre est uniforme, plus l'amas est sphérique. Vous pourriez même définir une sorte de métrique pour indiquer à quel point les valeurs propres ne sont pas uniformes (entropie spectrale?); voir http://en.wikipedia.org/wiki/Spectral_flatness .
Comme avantage secondaire, vous pouvez examiner les principaux composants (les vecteurs propres associés à de grandes valeurs propres) pour voir «où» les clusters «en forme de cigare» pointent dans votre espace de données.
Naturellement, il s'agit d'une approximation grossière pour un cluster arbitraire, car elle ne modélise que les points du cluster comme un seul ellipsoïde. Mais, comme je l'ai dit, cela pourrait vous donner un aperçu.
la source
Les algorithmes de clustering de corrélation tels que 4C, ERiC ou LMCLUS considèrent généralement les clusters comme des variétés linéaires. C'est-à-dire des hyperplans k-dimensionnels dans un espace d-dimensionnel. Eh bien, pour 4C et ERiC uniquement localement linéaire, ils peuvent donc être en fait non convexes. Mais ils essaient toujours de détecter des grappes de dimensionnalité locale réduite.
Trouver des grappes de forme arbitraire dans des données de haute dimension est un problème assez difficile. En particulier, en raison de la malédiction de la dimensionnalité qui laisse exploser l'espace de recherche et, en même temps, nécessite également que vous disposiez de données d'entrée beaucoup plus importantes si vous voulez toujours des résultats significatifs . Beaucoup trop d'algorithmes ne font pas attention à ce que ce qu'ils trouvent est toujours significatif ou pourrait aussi être aléatoire.
Donc, en fait, je crois qu'il y a d'autres problèmes à résoudre avant de penser à la convexité de la non-convexité d'amas complexes dans un espace de grande dimension.
Jetez également un œil à la complexité du calcul de la coque convexe dans des dimensions supérieures ...
De plus, avez-vous un vrai cas d'utilisation pour cela au-delà de la curiosité?
la source
Si votre dimensionnalité n'est pas beaucoup plus élevée que 2 ou 3, il pourrait être possible de projeter le cluster d'intérêt dans l'espace 2D plusieurs fois et de visualiser les résultats ou d'utiliser votre mesure 2D de non-linéarité. J'ai pensé à cela à cause de la méthode Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .
Des projections aléatoires peuvent être utilisées pour réduire la dimensionnalité afin de construire un index. La théorie est que si deux points sont proches dans les dimensions D et que vous prenez une projection aléatoire dans les dimensions d avec d
Pour être concret, vous pouvez penser à projeter un globe sur une surface plane. Peu importe comment vous le projetez, New York et New Jersey seront ensemble, mais vous ne ferez que rarement cohabiter New York et Londres.
Je ne sais pas si cela peut vous aider rigoureusement mais cela pourrait être un moyen rapide de visualiser les clusters.
la source