Choisir le K optimal pour KNN

15

J'ai effectué un CV 5 fois pour sélectionner le K optimal pour KNN. Et il semble que plus le K est grand, plus l'erreur est petite ...

entrez la description de l'image ici

Désolé je n'avais pas de légende, mais les différentes couleurs représentent différents essais. Il y en a 5 au total et il semble qu'il y ait peu de variation entre eux. L'erreur semble toujours diminuer lorsque K devient plus grand. Alors, comment puis-je choisir le meilleur K? K = 3 serait-il un bon choix ici parce que le type de graphique se stabilise après K = 3?

Adrian
la source
Qu'allez-vous faire des clusters une fois que vous les aurez trouvés? En fin de compte, c'est ce que vous allez faire avec les clusters produits par votre algorithme de clustering qui vous aidera à déterminer si l'utilisation de plusieurs clusters pour obtenir une petite erreur en vaut la peine.
Brian Borchers
Je veux un pouvoir prédictif élevé. Dans ce cas ... devrais-je aller avec K = 20? Puisqu'il a l'erreur la plus faible. Cependant, j'ai en fait tracé les erreurs pour K jusqu'à 100. Et 100 a l'erreur la plus faible de toutes ... donc je soupçonne que l'erreur diminuera à mesure que K augmentera. Mais je ne sais pas ce qu'est un bon point de coupure.
Adrian

Réponses:

12

kkkkk qu'un plus petit, si la différence dans leurs erreurs CV est négligeable.

Si l'erreur CV ne recommence pas à augmenter, cela signifie probablement que les attributs ne sont pas informatifs (au moins pour cette métrique de distance) et donner des sorties constantes est le mieux qu'il puisse faire.

Dikran Marsupial
la source
2

K=17K=3

Flet
la source
0

Y a-t-il une signification physique ou naturelle derrière le nombre de grappes? Si je ne me trompe pas, il est naturel qu'à mesure que K augmente, l'erreur diminue - un peu comme le surapprentissage. Plutôt que de pêcher pour le K optimal, il est probablement préférable de choisir K en fonction des connaissances du domaine ou d'une intuition?

tohweizhong
la source
Je pense que cette réponse serait plus appropriée pour le clustering k-means plutôt que la classification ou la régression k-nn.
Dikran Marsupial
Si k est trop grand, vous le sous-ajustez alors l'erreur remontera.
James