DBSCAN est l'algorithme de clustering le plus cité selon certaines publications et il peut trouver des clusters de formes arbitraires en fonction de la densité. Il a deux paramètres eps (comme rayon de voisinage) et minPts (comme voisins minimum pour considérer un point comme point central) dont je crois que cela dépend fortement.
Existe-t-il une méthode de routine ou couramment utilisée pour choisir ces paramètres?
clustering
dbscan
Mehraban
la source
la source
Réponses:
Il existe de nombreuses publications qui proposent des méthodes pour choisir ces paramètres.
Le plus notable est OPTICS, une variation DBSCAN qui supprime le paramètre epsilon; il produit un résultat hiérarchique qui peut être considéré comme "exécutant DBSCAN avec tous les epsilon possibles".
Pour minPts, je suggère de ne pas compter sur une méthode automatique, mais sur votre connaissance du domaine .
Un bon algorithme de clustering a des paramètres qui vous permettent de le personnaliser selon vos besoins.
Un paramètre que vous avez négligé est la fonction de distance. La première chose à faire pour DBSCAN est de trouver une bonne fonction de distance pour votre application . Ne comptez pas sur la distance euclidienne comme étant la meilleure pour chaque application!
la source
k
pour la classification du plus proche voisin, vous pouvez dire la même chose pour le paramètre minPts. Je suppose que la principale différence est que pour la distance, il y a un défaut "souvent" sensible: la distance euclidienne; alors que pour minPts, la valeur sera spécifique aux données.