Erreur d'apprentissage dans le classificateur KNN lorsque K = 1

8

J'ai obtenu cette question dans un quiz, il a demandé quelle sera l'erreur de formation pour un classificateur KNN lorsque K = 1. Que signifie la formation pour un classificateur KNN? Ma compréhension du classificateur KNN était qu'il considère l'ensemble des données et attribue à toute nouvelle observation la valeur de la majorité des K-voisins les plus proches. Où la formation entre-t-elle en scène? De plus, la bonne réponse fournie pour cela était que l'erreur de formation sera nulle indépendamment de tout ensemble de données. Comment est-ce possible?

byzantin
la source

Réponses:

13

L'erreur d'entraînement est l'erreur que vous rencontrez lorsque vous saisissez votre ensemble d'entraînement dans votre KNN comme ensemble de test. Lorsque K = 1, vous choisirez l'échantillon d'apprentissage le plus proche de votre échantillon de test. Étant donné que votre échantillon de test se trouve dans l'ensemble de données de formation, il se choisira comme le plus proche et ne se trompera jamais. Pour cette raison, l'erreur d'apprentissage sera nulle lorsque K = 1, quel que soit l'ensemble de données. Soit dit en passant, il y a une hypothèse logique: votre ensemble de formation ne comprendra pas les mêmes échantillons de formation appartenant à différentes classes, c'est-à-dire des informations contradictoires. Certains ensembles de données du monde réel peuvent cependant avoir cette propriété.

gunes
la source
3

Pour une compréhension visuelle, vous pouvez considérer la formation des KNN comme un processus de coloration des régions et de délimitation des données de formation.

Nous pouvons d'abord tracer des limites autour de chaque point de l'ensemble d'apprentissage avec l'intersection de bissectrices perpendiculaires de chaque paire de points. (l'animation de la bissectrice perpendiculaire est illustrée ci-dessous)

animation de bissectrice perpendiculaire

source gif

Pour savoir comment colorer les régions à l'intérieur de ces limites, pour chaque point, nous examinons la couleur du voisin. QuandK=1, pour chaque point de données, X, dans notre ensemble de formation, nous voulons trouver un autre point,X, qui a le moins de distance de X. La distance la plus courte possible est toujours0, ce qui signifie que notre "plus proche voisin" est en fait le point de données d'origine lui-même, X=X.

Pour colorer les zones à l'intérieur de ces limites, nous recherchons la catégorie correspondante X. Disons que nos choix sont bleu et rouge. AvecK=1, nous colorons les régions entourant les points rouges avec du rouge et les régions entourant le bleu avec du bleu. Le résultat ressemblerait à quelque chose comme ceci:

k = 1 avec toutes les frontières

Remarquez qu'il n'y a pas de points rouges dans les régions bleues et vice versa. Cela nous indique qu'il y a une erreur de formation de 0.

Notez que les limites de décision ne sont généralement dessinées qu'entre différentes catégories (jetez toutes les limites bleu-bleu rouge-rouge) de sorte que votre limite de décision pourrait ressembler davantage à ceci:

entrez la description de l'image ici

Encore une fois, tous les points bleus sont dans les limites bleues et tous les points rouges sont dans les limites rouges; nous avons toujours une erreur de test de zéro. En revanche, si nous augmentonsK à K=20, nous avons le schéma ci-dessous. Notez qu'il y a des points rouges dans les zones bleues et des points bleus dans les zones rouges. Voici à quoi ressemble une erreur d'apprentissage non nulle.

Quand K=20, nous colorons les régions autour d'un point en fonction de la catégorie de ce point (couleur dans ce cas) et de la catégorie de 19 de ses plus proches voisins. Si la plupart des voisins sont bleus, mais que le point d'origine est rouge, le point d'origine est considéré comme une valeur aberrante et la région qui l'entoure est colorée en bleu. C'est pourquoi vous pouvez avoir autant de points de données rouges dans une zone bleue et vice versa.

entrez la description de l'image ici

source d'images

David
la source