Pour le clustering hiérarchique, je vois souvent les deux "métriques" suivantes (elles ne parlent pas exactement) pour mesurer la distance entre deux variables aléatoires et Y : L'un ou l'autre remplit-il l'inégalité du triangle? Si oui, comment dois-je le prouver autrement que simplement faire un calcul de force brute? S'ils ne sont pas des métriques, qu'est-ce qu'un simple contre-exemple?
13
Réponses:
L' inégalité du triangle sur votre donnerait:ré1
Cela semble être une inégalité assez facile à vaincre. Nous pouvons rendre le côté droit aussi petit que possible (exactement un) en rendant et Z indépendants. Peut-on alors trouver un Y pour lequel le côté gauche dépasse un?X Z Oui
Si et X et Z ont une variance identique, alors C o r ( X , Y ) = √Oui= X+ Z X Z et de même pourCor(Y,Z), donc le côté gauche est bien au-dessus de un et l'inégalité est violée. Exemple de cette violation dans R, oùXetZsont des composants d'une normale multivariée:C o r (X, Y) = 2√2≈ 0,707 C o r (Y, Z) X Z
Notez cependant que cette construction ne fonctionne pas avec votre :ré2
Plutôt que de lancer une attaque théorique sur , à ce stade, j'ai simplement trouvé plus facile de jouer avec la matrice de covariance dans R jusqu'à ce qu'un joli contre-exemple apparaisse. Si V a r ( X ) = 2 , V a r ( Z ) = 1 et C o v ( X , Z ) = 1 donne:ré2 V a r (X) = 2 V a r (Z) = 1 C o v (X, Z) = 1
Sigma
Nous pouvons également étudier les covariances:
C o v ( Y , Z ) = C o v ( X + Z , Z
Les corrélations au carré sont alors: Cor(X,Y)2=Cov(X,Y)2
Alors tandis que d 2 ( X , Y ) = 0,1 et d 2 ( Y , Z ) = 0,2 de sorte que l'inégalité du triangle est violée par une marge substantielle.ré2( X, Z) = 0,5 ré2( X, Y) = 0,1 ré2(Y,Z) = 0,2
la source
Par conséquent, concernant
Qu'en est-il de la deuxième distance?
SSerror/SStotal
.1033
.2132
la source
Voir aussi cette préimpression que j'ai écrite: http://arxiv.org/abs/1208.3145 . Je dois encore prendre du temps et le soumettre correctement. L'abstrait:
Le résultat de votre question est que d1 , d2 ne sont en effet pas des métriques et que la racine carrée de d2 est en fait une métrique appropriée.
la source
Non.
Contre-exemple le plus simple:
Il s'agit tout au plus d'une métrique sur un sous-ensemble de l'espace de données, sans aucune série constante.
la source