J'utilise le clustering hiérarchique pour analyser les données de séries chronologiques. Mon code est implémenté à l'aide de la fonction MathematicaDirectAgglomerate[...]
, qui génère des clusters hiérarchiques compte tenu des entrées suivantes:
une matrice de distance D
le nom de la méthode utilisée pour déterminer la liaison inter-cluster.
J'ai calculé la matrice de distance D en utilisant la distance de Manhattan:
où et est le nombre de points de données dans ma série chronologique.n ≈ 150
Ma question est, est-il correct d'utiliser la liaison inter-cluster de Ward avec une matrice de distance de Manhattan? Certaines sources suggèrent que le couplage de Ward ne devrait être utilisé qu'avec la distance euclidienne.
Notez que DirectAgglomerate[...]
calcule le lien de Ward en utilisant la matrice de distance uniquement, et non les observations originales. Malheureusement, je ne sais pas comment Mathematica modifie l'algorithme original de Ward, qui (d'après ma compréhension) a fonctionné en minimisant la somme d'erreur des carrés des observations, calculée par rapport à la moyenne du cluster. Par exemple, pour un cluster constitué d'un vecteur d'observations univariées, Ward a formulé la somme d'erreur des carrés comme suit:
(D'autres outils logiciels tels que Matlab et R implémentent également le clustering de Ward en utilisant uniquement une matrice de distance, de sorte que la question n'est pas spécifique à Mathematica.)
agnes
dans le package de cluster .Réponses:
L'algorithme de clustering de Ward est une méthode de clustering hiérarchique qui minimise un critère d '«inertie» à chaque étape. Cette inertie quantifie la somme des résidus au carré entre le signal réduit et le signal initial: c'est une mesure de la variance de l'erreur dans un sens l2 (euclidien). En fait, vous en parlez même dans votre question. C'est pourquoi, je crois, cela n'a aucun sens de l'appliquer à une matrice de distance qui n'est pas une distance euclidienne l2.
En revanche, une liaison moyenne ou une grappe hiérarchique à liaison unique conviendrait parfaitement à d'autres distances.
la source
Je ne vois aucune raison pour laquelle Ward devrait privilégier une métrique. La méthode de Ward n'est qu'une autre option pour décider quels clusters fusionner ensuite pendant l'agglomération. Ceci est réalisé en trouvant les deux clusters dont la fusion minimisera une certaine erreur ( source exemplaire pour la formule ).
Elle repose donc sur deux concepts:
Donc: tant que les propriétés de la métrique choisie (comme par exemple la rotation, la traduction ou l'invariance d'échelle) satisfont vos besoins (et que la métrique correspond à la façon dont la moyenne du cluster est calculée), je ne vois aucune raison de ne pas l'utiliser .
Je soupçonne que la plupart des gens suggèrent la métrique euclidienne parce qu'ils
la source
la source