Je suis nouveau dans l'analyse de séquence et je me demandais comment vous réagiriez si les largeurs de silhouette moyennes (ASW) des analyses de grappes de matrices de dissimilarité basées sur la correspondance optimale sont faibles (environ 25). Serait-il approprié de conclure qu'il existe peu de structure sous-jacente qui permettrait de regrouper les séquences? Pourriez-vous ignorer le faible ASW basé sur d'autres mesures de la qualité du cluster (j'en ai collé quelques-uns ci-dessous)? Ou est-il probable que les choix effectués au cours de l'analyse de séquence ou des analyses de grappes ultérieures soient responsables des faibles nombres d'ASW?
Toute suggestion serait appréciée. Merci.
Si plus de contexte est nécessaire:
J'examine 624 séquences d'inadéquations des heures de travail (c.-à-d. Les asymétries entre le nombre d'heures qu'une personne préfère travailler au cours d'une semaine et le nombre d'heures de travail réel) parmi les personnes dans la vingtaine. Toutes les séquences que j'examine ont une longueur de 10. Mon objet de séquence a cinq états (M = veut plus d'heures, S = veut les mêmes heures, F = veut moins d'heures, O = hors de la population active et U = sans emploi ).
Je n'ai pas fait une comptabilité systématique de la façon dont les résultats ASW varient avec différentes combinaisons d'approches. Pourtant, j'ai essayé des coûts indel bas et moyens (0,1 et 0,6 du coût de substitution maximum - je me soucie plus de l'ordre des événements que de leur calendrier) et de différentes procédures de clustering (ward, average et pam). Mon impression générale est que les chiffres ASW restent faibles.
Peut-être que de faibles résultats ASW ont du sens. Je m'attendrais à ce que ces états viennent dans une variété d'ordres différents, et les états peuvent être répétés. La suppression des observations en double ne fait que baisser le N de 624 à 536. L'étude des données révèle qu'il y a en effet un bon nombre de variétés et de séquences que je considérerais très différentes, par exemple, les personnes qui voulaient les mêmes heures tout le temps, ont développé un décalage, ont résolu un décalage, et a oscillé d'avant en arrière entre avoir et ne pas avoir un décalage. Le manque de clusters clairement différenciés n'est peut-être pas la même chose qu'un manque de variation intéressante. Pourtant, les faibles résultats de cluster semblent me laisser sans une belle façon de résumer les séquences.
Résultats de la méthode de Ward avec indel fixé à 0,1 du coût de substitution de 2 Ces statistiques semblent suggérer qu'une solution à 6 grappes pourrait être bonne. L'ASW, cependant, est faible - au moins pour les solutions qui ont un nombre raisonnable de clusters (2 ou 3, c'est trop peu).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08
la source