Lorsque nous procédons à la classification et à la régression, nous définissons généralement des ensembles de tests et de formation pour nous aider à créer et à améliorer des modèles.
Cependant, lorsque nous faisons du clustering, devons-nous également définir des ensembles de tests et de formation? Pourquoi?
Réponses:
Oui, car le clustering peut également souffrir d'un problème de sur-ajustement. Par exemple, l'augmentation du nombre de clusters "augmentera toujours les performances".
Voici une démo utilisant le clustering K-Means:
La fonction objective de K-means est (les détails de notation peuvent être trouvés ici )
Avec un tel objectif, le inférieur signifie un «meilleur» modèle.J
Supposons que nous ayons des données suivantes (données d'iris), choisir le nombre de grappe comme sera toujours "meilleur" que choisir le nombre de grappe comme . Ensuite, choisir clusters sera mieux que clusters. Nous pouvons continuer sur cette piste et nous retrouver avec un coût : il suffit de rendre le numéro du cluster égal au nombre de points de données et de placer tout le centre du cluster sur les points correspondants.4 3 5 4 J=0
Si nous conservons des données pour les tests, cela nous empêchera de sur-ajuster. Le même exemple, supposons que nous choisissions des clusters à grand nombre et plaçons chaque centre de cluster sur les points de données de formation. L'erreur de test sera importante, car les points de données de test ne chevaucheront pas les données de formation.
la source
Non, cela ne sera généralement pas possible.
Il existe très peu de clusters que vous pourriez utiliser comme un classificateur. Ce n'est qu'avec k-means, PAM etc. que vous pouvez évaluer la "généralisation", mais le clustering est devenu beaucoup plus diversifié (et intéressant) depuis. Et en fait, même l'ancien clustering hiérarchique ne se généralisera pas bien aux «nouvelles» données. Le clustering n'est pas une classification. De nombreuses méthodes de classification ne se transfèrent pas bien au clustering; y compris l'optimisation hyperparamétrique.
Si vous ne disposez que de données partiellement étiquetées, vous pouvez utiliser ces étiquettes pour optimiser les paramètres. Mais le scénario général du clustering sera que vous souhaitez en savoir plus sur votre ensemble de données; vous exécutez plusieurs fois le clustering, étudiez les clusters intéressants (car généralement, certains clusters sont clairement trop petits ou trop grands pour être intéressants!) et notez certaines des informations que vous avez obtenues. Le clustering est un outil pour aider l' humain à explorer un ensemble de données , pas une chose automatique. Mais vous ne "déploierez" pas un clustering. Ils sont trop peu fiables et un seul clustering ne "racontera jamais toute l'histoire".
la source
Non. Vous n'utilisez pas la formation et les tests dans un apprentissage non supervisé. Il n'y a pas de fonction objective dans l'apprentissage non supervisé pour tester les performances de l'algorithme.
la source