J'étudie l'utilisation des tests de signification statistique (SST) pour valider les résultats de l'analyse en grappes. J'ai trouvé plusieurs articles sur ce sujet, tels que
- « Signification statistique du regroupement pour les données de grande taille et de faible taille d'échantillon » par Liu, Yufeng et al. (2008)
- " Sur certains tests de signification dans l'analyse en grappes ", par Bock (1985)
Mais je suis intéressé à trouver de la littérature faisant valoir que le SST n'est PAS approprié pour valider les résultats de l'analyse de cluster. La seule source que j'ai trouvée affirmant qu'il s'agit d'une page Web d'un fournisseur de logiciels
Clarifier:
Je suis intéressé à tester si une structure de cluster significative a été trouvée à la suite de l'analyse de cluster, donc, j'aimerais avoir des articles qui soutiennent ou réfutent la préoccupation "sur la possibilité de tests post-hoc des résultats des données exploratoires analyse utilisée pour trouver des clusters ".
Je viens de trouver un article de 2003, " Clustering and classification methods " de Milligan et Hirtle, disant, par exemple, que l'utilisation de l'ANOVA serait une analyse invalide car les données n'ont pas d'assignations aléatoires aux groupes.
Réponses:
Il est assez évident que vous ne pouvez pas (naïvement) tester la différence de distribution pour les groupes qui ont été définis en utilisant les mêmes données. Ceci est connu sous le nom de "test sélectif", "double trempage", "inférence circulaire", etc.
Un exemple serait d'effectuer un test t sur les hauteurs des personnes "grandes" et "courtes" dans vos données. Le null sera (presque) toujours rejeté.
Cela dit, on peut en effet expliquer l'étape de regroupement au stade des tests. Je ne connais cependant pas une référence particulière à cet effet, mais je pense que cela aurait dû être fait.
la source
Au lieu de tester des hypothèses avec un test donné, je recommanderais des moyens d'amorçage ou d'autres estimations sommaires entre les grappes. Par exemple, vous pouvez vous fier au bootstrap centile avec au moins 1 000 échantillons. Le point clé est d'appliquer le clustering indépendamment à chaque échantillon d'amorçage.
Cette approche serait assez robuste, fournirait des preuves des différences et soutiendrait votre affirmation de différence significative entre les clusters. De plus, vous pourriez générer une autre variable (disons la différence entre les grappes) et les estimations bootstrap de cette variable de différence seraient similaires à un test formel d'hypothèse.
la source