Les faibles largeurs de silhouette signifient-elles que les données ont peu de structure sous-jacente?

10

Je suis nouveau dans l'analyse de séquence et je me demandais comment vous réagiriez si les largeurs de silhouette moyennes (ASW) des analyses de grappes de matrices de dissimilarité basées sur la correspondance optimale sont faibles (environ 25). Serait-il approprié de conclure qu'il existe peu de structure sous-jacente qui permettrait de regrouper les séquences? Pourriez-vous ignorer le faible ASW basé sur d'autres mesures de la qualité du cluster (j'en ai collé quelques-uns ci-dessous)? Ou est-il probable que les choix effectués au cours de l'analyse de séquence ou des analyses de grappes ultérieures soient responsables des faibles nombres d'ASW?

Toute suggestion serait appréciée. Merci.

Si plus de contexte est nécessaire:

J'examine 624 séquences d'inadéquations des heures de travail (c.-à-d. Les asymétries entre le nombre d'heures qu'une personne préfère travailler au cours d'une semaine et le nombre d'heures de travail réel) parmi les personnes dans la vingtaine. Toutes les séquences que j'examine ont une longueur de 10. Mon objet de séquence a cinq états (M = veut plus d'heures, S = veut les mêmes heures, F = veut moins d'heures, O = hors de la population active et U = sans emploi ).

Je n'ai pas fait une comptabilité systématique de la façon dont les résultats ASW varient avec différentes combinaisons d'approches. Pourtant, j'ai essayé des coûts indel bas et moyens (0,1 et 0,6 du coût de substitution maximum - je me soucie plus de l'ordre des événements que de leur calendrier) et de différentes procédures de clustering (ward, average et pam). Mon impression générale est que les chiffres ASW restent faibles.

Peut-être que de faibles résultats ASW ont du sens. Je m'attendrais à ce que ces états viennent dans une variété d'ordres différents, et les états peuvent être répétés. La suppression des observations en double ne fait que baisser le N de 624 à 536. L'étude des données révèle qu'il y a en effet un bon nombre de variétés et de séquences que je considérerais très différentes, par exemple, les personnes qui voulaient les mêmes heures tout le temps, ont développé un décalage, ont résolu un décalage, et a oscillé d'avant en arrière entre avoir et ne pas avoir un décalage. Le manque de clusters clairement différenciés n'est peut-être pas la même chose qu'un manque de variation intéressante. Pourtant, les faibles résultats de cluster semblent me laisser sans une belle façon de résumer les séquences.

Résultats de la méthode de Ward avec indel fixé à 0,1 du coût de substitution de 2 Ces statistiques semblent suggérer qu'une solution à 6 grappes pourrait être bonne. L'ASW, cependant, est faible - au moins pour les solutions qui ont un nombre raisonnable de clusters (2 ou 3, c'est trop peu).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08
JeremyR
la source

Réponses:

11

L'ASW est une mesure de la cohérence d'une solution de clustering. Une valeur ASW élevée signifie que les grappes sont homogènes (toutes les observations sont proches du centre de la grappe) et qu'elles sont bien séparées. Selon Kaufmann et Rousseuw (1990), une valeur inférieure à 0,25 signifie que les données ne sont pas structurées. Entre 0,25 et 0,5, les données peuvent être structurées, mais elles peuvent également être un artifice. Veuillez garder à l'esprit que ces valeurs sont indicatives et ne doivent pas être utilisées comme seuil de décision. Ces valeurs ne sont pas théoriquement définies (elles ne sont pas basées sur une certaine valeur p) mais sont basées sur l'expérience des auteurs. Par conséquent, selon ces faibles valeurs ASW, vos données semblent être assez non structurées. Si l'objectif de l'analyse en grappes est uniquement descriptif, vous pouvez affirmer qu'elle révèle certains (mais seulement certains) des modèles les plus saillants. cependant,

Vous pouvez également essayer de regarder les valeurs ASW "par cluster" (cela est donné par la fonction wcClusterQuality). Peut-être que certains de vos clusters sont bien définis et certains peuvent être "faux" (ASW <0), ce qui entraîne une faible valeur ASW globale.

Vous pouvez essayer d'utiliser des stratégies d'amorçage, ce qui devrait vous donner un meilleur indice. Dans R, la fonction clusterbootdu package fpcpeut être utilisée à cet effet (consultez la page d'aide). Cependant, il ne fonctionne pas avec des données pondérées. Si vos données ne sont pas pondérées, je pense que cela vaut la peine d'essayer.

Enfin, vous voudrez peut-être regarder de plus près vos données et votre catégorisation. Peut-être que vos catégories sont trop instables ou mal définies. Cependant, cela ne semble pas être le cas ici.

Comme vous l'avez dit, "le manque de clusters clairement différenciés n'est pas la même chose qu'un manque de variation intéressante". Il existe d'autres méthodes pour analyser la variabilité de vos séquences, telles que l'analyse des écarts. Ces méthodes vous permettent d'étudier les liens entre les séquences et les facteurs explicatifs. Vous pouvez, par exemple, essayer de construire des arbres de régression de séquence (fonction "seqtree" dans le package TraMineR).

Matthias Studer
la source