Disons que nous définissons une distance, qui n'est pas une métrique , entre N éléments.
Sur la base de cette distance, nous utilisons ensuite un regroupement hiérarchique agglomératif .
Pouvons-nous utiliser chacun des algorithmes connus (liaison simple / maximale / moyenne, etc.) pour obtenir des résultats significatifs? Ou autrement dit, quel est le problème avec leur utilisation si la distance n'est pas une métrique?
Réponses:
Les exigences pour les distances dépendent de la méthode de regroupement hiérarchique. Les méthodes simples, complètes et moyennes nécessitent que les distances soient non négatives et symétriques. Les méthodes Ward, centroïde et médiane ont besoin de distances euclidiennes (au carré) (qui sont encore plus étroites que métriques) pour produire des résultats géométriquement significatifs.
(On peut vérifier si sa matrice de distance est euclidienne en la centrant doublement [voir ma réponse ici ] et en regardant les valeurs propres; si aucune valeur propre négative n'est trouvée, alors les distances convergent dans l'espace euclidien.)
la source
Non, la distance ne doit pas nécessairement être une métrique. Il peut, par exemple, être ultramétrique:
Les distances ultramétriques obtenues à partir des étapes successives de l'algorithme de clustering peuvent être représentées à l'aide de dendrogrammes, que vous avez peut-être vus dans ce contexte.
la source