J'ai utilisé la statistique GAP pour estimer k grappes dans R. Cependant, je ne suis pas sûr de bien l'interpréter.
D'après l'intrigue ci-dessus, je suppose que je devrais utiliser 3 clusters.
Dans la deuxième parcelle, je devrais choisir 6 grappes. Est-ce une interprétation correcte des statistiques GAP?
Je serais reconnaissant pour toute explication.
clustering
peterpeter
la source
la source
clusGap
basé sur globalmax, je ne savais pas comment implémenter maxSE.Réponses:
Pour obtenir un regroupement idéal, vous devez sélectionner à maximiser la statistique d'écart. Voici l'exemple donné par Tibshirani et al. (2001) dans leur article, l'intrigue formée de données artificielles à 2 grappes. Comme vous pouvez le voir, 2 est clairement le idéal , car la statistique de l'écart est maximisée à :k k k = 2
Cependant, dans de nombreux ensembles de données du monde réel, les grappes ne sont pas aussi bien définies, et nous voulons être en mesure d'équilibrer la maximisation de la statistique de l'écart avec la parcimonie du modèle. Exemple: la première image d'OP. Si nous maximisons uniquement la statistique de l'écart , nous devons alors choisir le modèle avec 30 (ou même plus!) Grappes. En supposant que ce graphique va continuer à augmenter, bien sûr, les résultats sont moins utiles. Tibshirani suggère donc la méthode de l' erreur standard 1 :
Ce qui identifie de manière informelle le point auquel le taux d'augmentation de la statistique de l'écart commence à "ralentir".
Donc, dans la première image de OP, si nous prenons les barres d'erreur rouges comme erreur standard, alors 3 est le plus petit qui satisfait ce critère:k
Cependant, pour la deuxième image d'OP, vous verrez que la statistique de l'écart diminue immédiatement pour . Ainsi, le premier qui satisfait au critère d'erreur standard est . C'est la manière du graphique de dire que les données ne doivent pas être regroupées.k > 1 k 1
En fait, il existe d'autres façons de choisir un optimal . La méthode par défaut de la fonction R , par exemple, recherche toujours le maximum local du graphique et sélectionne le plus petit dans une erreur standard du maximum local. En utilisant cette méthode, nous sélectionnerions et pour les graphiques OP 1 et 2 respectivement. Comme je l'ai dit, cependant, cela semble souffrir d'un problème de complexité.k k k = 30 k = 19
clusGap
firstSEmax
Source: Robert Tibshirani, Guenther Walther et Trevor Hastie (2001). Estimation du nombre de grappes dans un ensemble de données via la statistique de l'écart.
la source