Actuellement, j'essaie d'analyser un ensemble de données de document texte qui n'a aucune vérité fondamentale. On m'a dit que vous pouvez utiliser la validation croisée k-fold pour comparer différentes méthodes de clustering. Cependant, les exemples que j'ai vus dans le passé utilisent une vérité fondamentale. Existe-t-il un moyen d'utiliser les moyens k-fold sur cet ensemble de données pour vérifier mes résultats?
J'essaie de comprendre comment appliquer la validation croisée à une méthode de clustering telle que les k-means puisque les nouvelles données à venir vont changer le centroïde et même les distributions de clustering sur votre existante.
En ce qui concerne la validation non supervisée du clustering, vous devrez peut-être quantifier la stabilité de vos algorithmes avec un numéro de cluster différent sur les données rééchantillonnées.
L'idée de base de la stabilité du clustering peut être illustrée dans la figure ci-dessous:
Vous pouvez observer qu'avec le nombre de clustering de 2 ou 5, il y a au moins deux résultats de clustering différents (voir les lignes de tiret de fractionnement sur les figures), mais avec le nombre de clustering de 4, le résultat est relativement stable.
Stabilité du clustering: un aperçu par Ulrike von Luxburg pourrait être utile.
la source
Pour plus d'explication et de clarté, je bootstrap le clustering.
En général, vous pouvez utiliser de tels regroupements rééchantillonnés pour mesurer la stabilité de votre solution: est-ce qu'elle ne change pratiquement pas ou change-t-elle complètement?
Même si vous n'avez aucune vérité fondamentale, vous pouvez bien sûr comparer le clustering qui résulte de différentes exécutions de la même méthode (rééchantillonnage) ou les résultats de différents algorithmes de clustering, par exemple en tabulant:
comme les grappes sont nominales, leur ordre peut changer arbitrairement. Mais cela signifie que vous êtes autorisé à modifier l'ordre afin que les clusters correspondent. Ensuite, les éléments diagonaux * comptent les observations affectées au même cluster et les éléments hors diagonale montrent de quelle manière les affectations ont changé:
Je dirais que le rééchantillonnage est bon afin d'établir la stabilité de votre clustering dans chaque méthode. Sans cela, il n'est pas très logique de comparer les résultats à d'autres méthodes.
Vous ne mélangez pas la validation croisée k-fold et le clustering k-means, n'est-ce pas?
la source
Il y a une publication récente sur une méthode de validation bi-croisée pour déterminer le nombre de clusters ici .
et quelqu'un essaie de mettre en œuvre avec sci-kit apprendre ici .
la source