Publier ceci ici pour quiconque rencontrera ma question à l'avenir - l'article original décrivant l'algorithme du facteur de valeurs aberrantes locales, "LOF: Identifying Density-Based Local Outliers" (Breunig et al), recommande une méthode de choix d'une valeur k . Pour rappel, l'algorithme LOF compare la densité de chaque point à la densité de ses voisins les plus proches. Les auteurs de l'article recommandent de choisir un minimum et un maximum , et pour chaque point, en prenant la valeur LOF maximale sur chaque dans cette plage. Ils offrent plusieurs lignes directrices pour choisir les limites.kkkk
Pour la valeur minimale, les valeurs LOF fluctuent de manière sauvage les points dans une distribution uniforme pour , avec des points dans une distribution uniforme apparaissant parfois comme des valeurs aberrantes, ils recommandent donc au moins . Deuxièmement, la valeur minimale sert de taille minimale pour que quelque chose soit considéré comme un "cluster", de sorte que les points peuvent être aberrants par rapport à ce cluster. Si , et que vous avez un groupe de points et un point , chaque point du groupe inclura dans ses voisins les plus proches, et inclura ces points, ce qui les conduira à avoir des LOF très similaires. Donc, si vous voulez considérer un point près d'un groupe dek<10min(k)=10kk=1512pppNdes points comme une valeur aberrante, plutôt qu'une partie de ce groupe, votre valeur k doit être d' au moins .N
Pour la valeur maximale, un critère similaire s'applique, en ce sens qu'il doit s'agir du nombre maximal d'objets que vous souhaitez considérer comme aberrants s'ils sont regroupés. Un groupe de objets isolés de l'ensemble principal peut être un cluster ou valeurs aberrantes; pour , ils seront les premiers; pour , ils seront les seconds.NNk<Nk>N
Espérons que cela aide toute personne ayant un problème similaire. L'article complet est ici , et la discussion des valeurs k max / min commence à la page 7 et passe par la page 9. (Ils se réfèrent à la valeur comme MinPts .)k