La notification après le tableau ANOVA après l'analyse des moyennes K indique que les niveaux de signification ne doivent pas être considérés comme le test de moyennes égales, car la solution de cluster a été dérivée sur la base de la distance euclidienne pour maximiser la distance. Quel test dois-je utiliser pour montrer si les moyennes des variables de clustering diffèrent entre les clusters? J'ai vu cet avertissement dans la table ANOVA fournie par les sorties k-means, mais dans certaines références, je vois que des tests ANOVA post-hoc sont exécutés. Dois-je ignorer les sorties ANOVA k-mean et exécuter l'ANOVA unidirectionnelle avec des tests post-hoc et les interpréter de manière traditionnelle? Ou puis-je seulement sous-entendre l'ampleur de la valeur F et quelles variables ont le plus contribué à la différence? Une autre confusion est que les variables de regroupement ne sont pas normalement distribuées, ce qui viole l'hypothèse de l'ANOVA, alors je pourrais utiliser le test non paramétrique de Kruskal-Wallis, mais il a des hypothèses sur les mêmes distributions. Les distributions inter-grappes pour les variables spécifiques ne semblent pas les mêmes, certaines sont faussées positivement, d'autres négativement ... J'ai 1275 grand échantillon, 5 grappes, 10 variables de grappe mesurées en scores PCA.
14
Réponses:
Non!
Vous devez ne pas utiliser les mêmes données pour 1) effectuer un clustering et 2) rechercher des différences significatives entre les points des clusters. Même s'il n'y a pas de structure réelle dans les données, le clustering en imposera une en regroupant les points proches. Cela réduit la variance intra-groupe et augmente la variance inter-groupe, ce qui vous oriente vers les faux positifs.
Il n'y a rien de spécial à propos d'une ANOVA ici - vous verriez des effets similaires en utilisant des tests non paramétriques, une régression logistique, n'importe quoi. En général, la validation des performances d'un algorithme de clustering est délicate, en particulier si les données ne sont pas étiquetées. Cependant, il existe quelques approches de la «validation interne» ou de la mesure de la qualité des clusters sans utiliser de sources de données externes. Ils se concentrent généralement sur la compacité et la séparabilité des grappes. Cette revue de Lui et al. (2010) pourrait être un bon point de départ.
la source
Votre vrai problème est l'espionnage des données. Vous ne pouvez pas appliquer ANOVA ou KW si les observations ont été affectées à des groupes (grappes) en fonction du jeu de données d'entrée lui-même. Ce que vous pouvez faire est d'utiliser quelque chose comme la statistique Gap pour estimer le nombre de clusters.
D'un autre côté, les valeurs de p espionnées sont biaisées vers le bas, donc si le résultat du test ANOVA ou KW est insignifiant, alors la "vraie" valeur de p est encore plus grande et vous pouvez décider de fusionner les clusters.
la source
Je pense que vous pourriez appliquer une telle approche (c'est-à-dire en utilisant les statistiques, telles que les statistiques F ou les statistiques t ou autre), si vous jetez les distributions nulles habituelles .
Ce que vous devez faire est de simuler la situation dans laquelle votre valeur nulle est vraie, d'appliquer l'ensemble de la procédure (clustering, etc.), puis de calculer la statistique à chaque fois. Appliqué sur de nombreuses simulations, vous obtiendriez une distribution de la statistique sous la valeur nulle à laquelle votre valeur d'échantillon pourrait être comparée. En incorporant l'espionnage des données dans le calcul, vous tenez compte de son effet.
[Alternativement, on pourrait peut-être développer un test basé sur le rééchantillonnage (qu'il soit basé sur la permutation / randomisation ou l'amorçage).]
la source